papers.title

papers.description

DDT: Entkoppelter Diffusions-Transformer
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

Diffusion-Transformer haben eine bemerkenswerte Generierungsqualität demonstriert, obwohl sie längere Trainingsiterationen und zahlreiche Inferenzschritte erfordern. In jedem Denoising-Schritt kodieren Diffusion-Transformer die verrauschten Eingaben, um die niederfrequente semantische Komponente zu extrahieren, und dekodieren dann die höhere Frequenz mit identischen Modulen. Dieses Schema erzeugt ein inhärentes Optimierungsdilemma: Die Kodierung niederfrequenter Semantik erfordert die Reduzierung hochfrequenter Komponenten, was eine Spannung zwischen semantischer Kodierung und hochfrequenter Dekodierung erzeugt. Um diese Herausforderung zu lösen, schlagen wir einen neuen \color{ddtD}entkoppelten \color{ddtD}iffusion-\color{ddtT}ransformer~(\color{ddtDDT}) vor, mit einem entkoppelten Design eines dedizierten Konditionskodierers für die semantische Extraktion sowie eines spezialisierten Geschwindigkeitsdekodierers. Unsere Experimente zeigen, dass ein leistungsfähigerer Kodierer mit zunehmender Modellgröße Leistungsverbesserungen bringt. Für ImageNet 256×256 erreicht unser DDT-XL/2 eine neue Bestleistung von {1,31 FID}~(fast 4-mal schnellere Trainingskonvergenz im Vergleich zu früheren Diffusion-Transformern). Für ImageNet 512×512 erreicht unser DDT-XL/2 einen neuen Bestwert von 1,28 FID. Zusätzlich verbessert unsere entkoppelte Architektur als nützliches Nebenprodukt die Inferenzgeschwindigkeit, indem sie die gemeinsame Nutzung von Selbstkonditionen zwischen benachbarten Denoising-Schritten ermöglicht. Um Leistungseinbußen zu minimieren, schlagen wir einen neuartigen statistischen dynamischen Programmieransatz vor, um optimale Sharing-Strategien zu identifizieren.

OLMoTrace: Rückverfolgung von Sprachmodell-Ausgaben zu Billionen von Trainings-Tokens
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

ByJiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

Wir präsentieren OLMoTrace, das erste System, das die Ausgaben von Sprachmodellen in Echtzeit auf ihre vollständigen, mehrere Billionen Token umfassenden Trainingsdaten zurückverfolgt. OLMoTrace identifiziert und zeigt wortwörtliche Übereinstimmungen zwischen Segmenten der Sprachmodellausgaben und Dokumenten in den Trainingsdatenkorpora. Angetrieben durch eine erweiterte Version von infini-gram (Liu et al., 2024), liefert unser System die Rückverfolgungsergebnisse innerhalb weniger Sekunden. OLMoTrace kann Nutzern helfen, das Verhalten von Sprachmodellen durch die Linse ihrer Trainingsdaten zu verstehen. Wir demonstrieren, wie es zur Untersuchung von Faktenprüfung, Halluzinationen und der Kreativität von Sprachmodellen eingesetzt werden kann. OLMoTrace ist öffentlich zugänglich und vollständig Open-Source.

Fehlende Prämissen verstärken Grübeln: Verlieren Reasoning-Modelle ihre Fähigkeit zum kritischen Denken?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

Wir stellen fest, dass die Antwortlänge von LLMs, die für logisches Denken trainiert wurden – unabhängig davon, ob durch Reinforcement Learning oder überwachtes Lernen –, bei schlecht gestellten Fragen mit fehlenden Prämissen (MiP) drastisch zunimmt, was zu redundanter und ineffektiver Denkweise führt. Dieses neu eingeführte Szenario verschärft das allgemeine Problem des Überdenkens in erheblichem Maße, was wir als MiP-Überdenken bezeichnen. Solche Fehler widersprechen dem „Test-Time-Scaling-Gesetz“, wurden jedoch in mehreren von uns erstellten Datensätzen mit MiP weit verbreitet beobachtet, was auf die Gefahren von billigem Überdenken und einen Mangel an kritischem Denken hinweist. Überraschenderweise zeigen LLMs, die nicht speziell für logisches Denken trainiert wurden, im MiP-Szenario eine deutlich bessere Leistung und liefern viel kürzere Antworten, die schlecht gestellte Anfragen schnell identifizieren. Dies deutet auf einen kritischen Fehler im aktuellen Trainingsansatz für logisch denkende LLMs hin, der effizientes Denken nicht ausreichend fördert und zu einem Missbrauch von Denkmustern führt. Um die Gründe für diese Fehler weiter zu untersuchen, führen wir detaillierte Analysen der Denklänge, der Überdenkmuster und der Position des kritischen Denkens bei verschiedenen Arten von LLMs durch. Darüber hinaus zeigt unsere erweiterte Ablationsstudie, dass das Überdenken durch die Destillation der Antworten von Denkmodellen ansteckend ist. Diese Ergebnisse verbessern das Verständnis des Überdenkens und bieten neue Einblicke in die Minderung des Problems.

FantasyTalking: Realistische Talking-Portrait-Generierung durch kohärente Bewegungsynthese
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

Die Erstellung eines realistischen, animierbaren Avatars aus einem einzigen statischen Porträt bleibt eine Herausforderung. Bestehende Ansätze haben oft Schwierigkeiten, subtile Gesichtsausdrücke, die damit verbundenen globalen Körperbewegungen und den dynamischen Hintergrund zu erfassen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Framework vor, das ein vortrainiertes Video-Diffusions-Transformer-Modell nutzt, um hochwertige, kohärente sprechende Porträts mit kontrollierbaren Bewegungsdynamiken zu erzeugen. Kern unserer Arbeit ist eine zweistufige Audio-Visual-Alignment-Strategie. In der ersten Stufe verwenden wir ein Clip-Level-Trainingsschema, um kohärente globale Bewegungen durch die Ausrichtung der audio-gesteuerten Dynamik über die gesamte Szene hinweg zu etablieren, einschließlich des Referenzporträts, kontextueller Objekte und des Hintergrunds. In der zweiten Stufe verfeinern wir die Lippenbewegungen auf Frame-Ebene mithilfe einer Lippenverfolgungsmaske, um eine präzise Synchronisation mit den Audiosignalen zu gewährleisten. Um die Identität zu bewahren, ohne die Bewegungsflexibilität zu beeinträchtigen, ersetzen wir das häufig verwendete Referenznetzwerk durch ein gesichtsorientiertes Cross-Attention-Modul, das effektiv die Gesichtskonsistenz im gesamten Video aufrechterhält. Darüber hinaus integrieren wir ein Modul zur Modulation der Bewegungsintensität, das explizit die Intensität von Ausdruck und Körperbewegungen steuert und so eine kontrollierbare Manipulation der Porträtbewegungen über die reine Lippenbewegung hinaus ermöglicht. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagener Ansatz eine höhere Qualität mit besserem Realismus, Kohärenz, Bewegungsintensität und Identitätserhaltung erreicht. Unsere Projektseite: https://fantasy-amap.github.io/fantasy-talking/.

Ein einheitliches agentenbasiertes Framework zur Bewertung der bedingten Bildgenerierung
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

Die bedingte Bildgenerierung hat aufgrund ihrer Fähigkeit, Inhalte zu personalisieren, erhebliche Aufmerksamkeit erlangt. Allerdings steht das Feld vor Herausforderungen bei der Entwicklung von aufgabenunabhängigen, zuverlässigen und erklärbaren Bewertungsmetriken. Dieses Papier stellt CIGEval vor, einen einheitlichen agentenbasierten Rahmen für die umfassende Bewertung von Aufgaben der bedingten Bildgenerierung. CIGEval nutzt große multimodale Modelle (LMMs) als Kern, integriert ein multifunktionales Werkzeugset und etabliert ein fein abgestuftes Bewertungsrahmenwerk. Zusätzlich synthetisieren wir Bewertungstrajektorien für das Feinabstimmen, wodurch kleinere LMMs befähigt werden, autonom geeignete Werkzeuge auszuwählen und differenzierte Analysen auf der Grundlage von Werkzeugausgaben durchzuführen. Experimente über sieben bedeutende Aufgaben der bedingten Bildgenerierung zeigen, dass CIGEval (GPT-4o-Version) eine hohe Korrelation von 0,4625 mit menschlichen Bewertungen erreicht, was eng an die Inter-Annotator-Korrelation von 0,47 heranreicht. Darüber hinaus übertrifft CIGEval, wenn es mit 7B Open-Source-LMMs unter Verwendung von nur 2,3K Trainings-Trajektorien implementiert wird, die bisherige GPT-4o-basierte State-of-the-Art-Methode. Fallstudien zur GPT-4o-Bildgenerierung unterstreichen die Fähigkeit von CIGEval, subtile Probleme im Zusammenhang mit der Subjektkonsistenz und der Einhaltung von Steuerungsanleitungen zu identifizieren, was auf sein großes Potenzial für die Automatisierung der Bewertung von Bildgenerierungsaufgaben mit menschlicher Zuverlässigkeit hinweist.

GenDoP: Autoregressive Erzeugung von Kameratrajektorien als Director of Photography
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

Die Gestaltung der Kameratrajektorie spielt eine entscheidende Rolle in der Videoproduktion und dient als grundlegendes Werkzeug, um die Intention des Regisseurs zu vermitteln und die visuelle Erzählung zu verbessern. In der Kinematografie entwerfen Kameraleiter sorgfältig Kamerabewegungen, um ausdrucksstarke und intentionale Bildkompositionen zu erreichen. Allerdings sind bestehende Methoden zur Generierung von Kameratrajektorien begrenzt: Traditionelle Ansätze stützen sich auf geometrische Optimierung oder handgefertigte prozedurale Systeme, während neuere lernbasierte Methoden oft strukturelle Verzerrungen aufweisen oder keine Textausrichtung besitzen, was die kreative Synthese einschränkt. In dieser Arbeit stellen wir ein autoregressives Modell vor, das von der Expertise der Kameraleiter inspiriert ist, um künstlerische und ausdrucksstarke Kameratrajektorien zu generieren. Zunächst führen wir DataDoP ein, einen groß angelegten multimodalen Datensatz, der 29.000 reale Aufnahmen mit frei beweglichen Kameratrajektorien, Tiefenkarten und detaillierten Beschreibungen spezifischer Bewegungen, Interaktionen mit der Szene und Regieabsichten enthält. Dank der umfassenden und vielfältigen Datenbasis trainieren wir weiterhin einen autoregressiven, decoder-only Transformer für die hochwertige, kontextbewusste Generierung von Kamerabewegungen basierend auf Textanweisungen und RGBD-Eingaben, genannt GenDoP. Umfangreiche Experimente zeigen, dass GenDoP im Vergleich zu bestehenden Methoden eine bessere Steuerbarkeit, feinere Trajektorienanpassungen und eine höhere Bewegungsstabilität bietet. Wir glauben, dass unser Ansatz einen neuen Standard für lernbasierte Kinematografie setzt und den Weg für zukünftige Fortschritte in der Kamerasteuerung und Filmproduktion ebnet. Unsere Projektwebsite: https://kszpxxzmc.github.io/GenDoP/.

Ein nüchterner Blick auf Fortschritte im Bereich des Sprachmodell-Denkens: Fallstricke und Wege zur Reproduzierbarkeit
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

Das Schließen hat sich als die nächste große Herausforderung für Sprachmodelle (Language Models, LMs) herauskristallisiert, mit rasanten Fortschritten sowohl aus akademischen als auch industriellen Laboren. Dieser Fortschritt überholt jedoch oft die methodische Strenge, da viele Bewertungen auf Benchmarking-Praktiken beruhen, denen Transparenz, Robustheit oder statistische Fundierung fehlen. In dieser Arbeit führen wir eine umfassende empirische Studie durch und stellen fest, dass aktuelle Benchmarks für mathematisches Schließen stark von subtilen Implementierungsentscheidungen abhängen – einschließlich Dekodierungsparametern, Zufallsinitialisierungen, Prompt-Formatierungen und sogar Hardware- und Software-Framework-Konfigurationen. Die in jüngsten Studien berichteten Leistungssteigerungen beruhen häufig auf unklaren Vergleichen oder nicht dokumentierten Varianzquellen. Um diese Probleme zu adressieren, schlagen wir ein standardisiertes Bewertungsframework mit klar definierten Best Practices und Berichtsstandards vor. Mit diesem Framework bewerten wir neuere Methoden neu und stellen fest, dass Ansätze des Reinforcement Learning (RL) nur bescheidene Verbesserungen erzielen – weit unter den bisherigen Behauptungen – und anfällig für Überanpassung sind, insbesondere bei kleinskaligen Benchmarks wie AIME24. Im Gegensatz dazu zeigen Methoden des Supervised Finetuning (SFT) durchweg eine stärkere Generalisierungsfähigkeit. Um die Reproduzierbarkeit zu fördern, veröffentlichen wir den gesamten Code, die Prompts und Modellausgaben für Schließen-Benchmarks und schaffen so eine solide Grundlage für zukünftige Arbeiten.

OmniCaptioner: Ein Captioner, um sie alle zu beherrschen
OmniCaptioner: One Captioner to Rule Them All

Apr 9

ByYiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao

Wir stellen OmniCaptioner vor, ein vielseitiges Framework zur visuellen Beschriftung, das feingranulare textuelle Beschreibungen für eine breite Palette visueller Domänen generiert. Im Gegensatz zu früheren Methoden, die auf bestimmte Bildtypen (z. B. natürliche Bilder oder geometrische Visualisierungen) beschränkt waren, bietet unser Framework eine einheitliche Lösung für die Beschriftung von natürlichen Bildern, visuellem Text (z. B. Plakate, Benutzeroberflächen, Lehrbücher) und strukturierten Visualisierungen (z. B. Dokumente, Tabellen, Diagramme). Indem es niedrig aufgelöste Pixelinformationen in semantisch reiche textuelle Repräsentationen umwandelt, schließt unser Framework die Lücke zwischen visuellen und textuellen Modalitäten. Unsere Ergebnisse heben drei wesentliche Vorteile hervor: (i) Verbessertes visuelles Schließen mit LLMs, bei dem langkontextuelle Beschreibungen visueller Modalitäten LLMs, insbesondere die DeepSeek-R1-Serie, befähigen, effektiv in multimodalen Szenarien zu schließen; (ii) Verbesserte Bildgenerierung, bei der detaillierte Beschreibungen Aufgaben wie Text-zu-Bild-Generierung und Bildtransformation optimieren; und (iii) Effizientes Supervised Fine-Tuning (SFT), das eine schnellere Konvergenz mit weniger Daten ermöglicht. Wir glauben, dass die Vielseitigkeit und Anpassungsfähigkeit von OmniCaptioner eine neue Perspektive bieten kann, um die Lücke zwischen Sprach- und visuellen Modalitäten zu schließen.

Selbststeuernde Sprachmodelle
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

Während das Schlussfolgern zur Testzeit es Sprachmodellen ermöglicht, komplexe Aufgaben zu bewältigen, kann das Suchen oder Planen in natürlicher Sprache langsam, kostspielig und fehleranfällig sein. Doch selbst wenn Sprachmodelle Schwierigkeiten haben, die präzisen Denkschritte zur Lösung eines Problems nachzuahmen, sind sie oft hervorragend darin, dessen abstrakte Struktur zu beschreiben – sowohl wie man Lösungen überprüft als auch wie man nach ihnen sucht. Dieses Papier stellt DisCIPL vor, eine Methode zur „Selbststeuerung“ von Sprachmodellen, bei der ein Planungsmodell ein aufgaben-spezifisches Inferenzprogramm generiert, das von einer Gruppe von Follower-Modellen ausgeführt wird. Unser Ansatz stattet Sprachmodelle mit der Fähigkeit aus, rekursive Suchverfahren zu schreiben, die die Inferenz der Modelle leiten und so neue Formen von überprüfbarem und effizientem Schlussfolgern ermöglichen. Wenn DisCIPL mit einem kleinen Follower-Modell (z.B. Llama-3.2-1B) instanziiert wird, erreicht es (und übertrifft manchmal sogar) viel größere Modelle, einschließlich GPT-4o und o1, bei anspruchsvollen Aufgaben zur eingeschränkten Generierung. Durch die Entkopplung von Planung und Ausführung eröffnet unsere Arbeit einen Designraum hochgradig parallelisierter Monte-Carlo-Inferenzstrategien, die das Standard-Best-of-N-Sampling übertreffen, kein Fine-Tuning erfordern und automatisch von bestehenden Sprachmodellen implementiert werden können.

Alles im Video beschreiben: Fein abgestimmte objektzentrierte Beschreibung durch raumzeitliche multimodale Prompting
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

ByYunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu

Wir präsentieren CAT-V (Caption AnyThing in Video), ein trainingsfreies Framework für feinkörnige, objektzentrierte Videobeschriftung, das detaillierte Beschreibungen von benutzerdefinierten Objekten über die Zeit ermöglicht. CAT-V integriert drei Schlüsselkomponenten: einen Segmentierer basierend auf SAMURAI für präzise Objektsegmentierung über Frames hinweg, einen Temporal Analyzer, der von TRACE-Uni angetrieben wird, für die genaue Erkennung von Ereignisgrenzen und temporale Analyse, sowie einen Captioner, der InternVL-2.5 verwendet, um detaillierte objektzentrierte Beschreibungen zu generieren. Durch räumlich-zeitliche visuelle Prompts und Chain-of-Thought-Reasoning erzeugt unser Framework detaillierte, zeitlich bewusste Beschreibungen von Objektattributen, Aktionen, Zuständen, Interaktionen und Umgebungskontexten, ohne zusätzliche Trainingsdaten zu benötigen. CAT-V unterstützt flexible Benutzerinteraktionen durch verschiedene visuelle Prompts (Punkte, Begrenzungsrahmen und unregelmäßige Regionen) und bewahrt die zeitliche Sensitivität, indem es Objektzustände und Interaktionen über verschiedene Zeitsegmente hinweg verfolgt. Unser Ansatz adressiert die Einschränkungen bestehender Videobeschriftungsmethoden, die entweder zu abstrakte Beschreibungen liefern oder an Objektpräzision mangeln, und ermöglicht feinkörnige, objektspezifische Beschreibungen bei gleichzeitiger Wahrung der zeitlichen Kohärenz und räumlichen Genauigkeit. Das GitHub-Repository für dieses Projekt ist verfügbar unter https://github.com/yunlong10/CAT-V.

VideoChat-R1: Verbesserung der räumlich-zeitlichen Wahrnehmung durch Reinforcement-Feintuning
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

Jüngste Fortschritte im Bereich des Reinforcement Learning haben die Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) im Bereich des logischen Denkens erheblich vorangetrieben. Während Ansätze wie die Group Relative Policy Optimization (GRPO) und regelbasierte Belohnungsmechanismen vielversprechend in den Bereichen Text und Bild sind, bleibt ihre Anwendung auf das Verständnis von Videos begrenzt. Dieses Papier präsentiert eine systematische Untersuchung von Reinforcement Fine-Tuning (RFT) mit GRPO für Video-MLLMs, mit dem Ziel, die räumlich-zeitliche Wahrnehmung zu verbessern, ohne dabei die allgemeinen Fähigkeiten zu beeinträchtigen. Unsere Experimente zeigen, dass RFT äußerst dateneffizient für aufgabenspezifische Verbesserungen ist. Durch Multi-Task-RFT auf räumlich-zeitliche Wahrnehmungsziele mit begrenzten Stichproben entwickeln wir VideoChat-R1, ein leistungsstarkes Video-MLLM, das Spitzenleistungen bei räumlich-zeitlichen Wahrnehmungsaufgaben erzielt, ohne die Chat-Fähigkeit zu opfern, und dabei aufkeimende räumlich-zeitliche Denkfähigkeiten zeigt. Im Vergleich zu Qwen2.5-VL-7B steigert VideoChat-R1 die Leistung um ein Vielfaches bei Aufgaben wie zeitlicher Verankerung (+31,8) und Objektverfolgung (+31,2). Zudem verbessert es sich signifikant bei allgemeinen QA-Benchmarks wie VideoMME (+0,9), MVBench (+1,0) und Perception Test (+0,9). Unsere Ergebnisse unterstreichen das Potenzial von RFT für die spezialisierte Aufgabenverbesserung von Video-MLLMs. Wir hoffen, dass unsere Arbeit wertvolle Einblicke für zukünftige RL-Forschung in Video-MLLMs bietet.

WildGS-SLAM: Monokulare Gaussian Splatting SLAM in dynamischen Umgebungen
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

Wir präsentieren WildGS-SLAM, ein robustes und effizientes monokulares RGB-SLAM-System, das für den Umgang mit dynamischen Umgebungen entwickelt wurde, indem es unsicherheitsbewusstes geometrisches Mapping nutzt. Im Gegensatz zu traditionellen SLAM-Systemen, die von statischen Szenen ausgehen, integriert unser Ansatz Tiefen- und Unsicherheitsinformationen, um die Tracking-, Mapping- und Rendering-Leistung in Gegenwart von beweglichen Objekten zu verbessern. Wir führen eine Unsicherheitskarte ein, die von einem flachen Multi-Layer-Perzeptron und DINOv2-Features vorhergesagt wird, um die Entfernung dynamischer Objekte sowohl während des Trackings als auch des Mappings zu steuern. Diese Unsicherheitskarte verbessert die dichte Bündeljustierung und die Optimierung der Gaußschen Karte, was die Rekonstruktionsgenauigkeit erhöht. Unser System wird auf mehreren Datensätzen evaluiert und zeigt eine artefaktfreie Viewsynthese. Die Ergebnisse demonstrieren die überlegene Leistung von WildGS-SLAM in dynamischen Umgebungen im Vergleich zu state-of-the-art Methoden.

DiTaiListener: Kontrollierbare Erzeugung hochwertiger Zuhörer-Videos mit Diffusionsmodellen
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

Die Erzeugung natürlicher und nuancierter Zuhörerbewegungen für längere Interaktionen bleibt ein ungelöstes Problem. Bestehende Methoden stützen sich oft auf niedrigdimensionale Bewegungscodes für die Generierung von Gesichtsverhalten, gefolgt von fotorealistischem Rendering, was sowohl die visuelle Qualität als auch die Ausdrucksvielfalt einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir DiTaiListener vor, das von einem Video-Diffusionsmodell mit multimodalen Bedingungen angetrieben wird. Unser Ansatz generiert zunächst kurze Segmente von Zuhörerreaktionen, die auf der Sprache und den Gesichtsbewegungen des Sprechers basieren, mit DiTaiListener-Gen. Anschließend werden die Übergangsbilder über DiTaiListener-Edit für einen nahtlosen Übergang verfeinert. Konkret passt DiTaiListener-Gen einen Diffusion Transformer (DiT) für die Aufgabe der Generierung von Zuhörerkopfporträts an, indem ein Causal Temporal Multimodal Adapter (CTM-Adapter) eingeführt wird, um die auditiven und visuellen Hinweise des Sprechers zu verarbeiten. Der CTM-Adapter integriert die Eingaben des Sprechers in kausaler Weise in den Videogenerierungsprozess, um zeitlich kohärente Zuhörerreaktionen zu gewährleisten. Für die Generierung von Langformvideos führen wir DiTaiListener-Edit ein, ein Übergangsverfeinerungsmodell für Video-zu-Video-Diffusion. Dieses Modell fügt Videosegmente zu flüssigen und kontinuierlichen Videos zusammen und gewährleistet dabei die zeitliche Konsistenz von Gesichtsausdrücken und Bildqualität bei der Zusammenführung kurzer Videosegmente, die von DiTaiListener-Gen erzeugt wurden. Quantitativ erreicht DiTaiListener Spitzenleistungen auf Benchmark-Datensätzen sowohl im Bereich des Fotorealismus (+73,8 % im FID auf RealTalk) als auch in der Bewegungsdarstellung (+6,1 % im FD-Metrik auf VICO). Nutzerstudien bestätigen die überlegene Leistung von DiTaiListener, wobei das Modell in Bezug auf Feedback, Vielfalt und Flüssigkeit klar bevorzugt wird und die Konkurrenz deutlich übertrifft.

Masked Scene Modeling: Verringerung der Lücke zwischen überwachtem und selbstüberwachtem Lernen im 3D-Szenenverständnis
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

Das selbstüberwachte Lernen hat die 2D-Computervision revolutioniert, indem es Modellen ermöglicht, auf großen, nicht annotierten Datensätzen trainiert zu werden und vielseitige, sofort einsatzbereite Merkmale bereitzustellen, die ähnlich gut abschneiden wie Modelle, die mit Labels trainiert wurden. Im Bereich des 3D-Szenenverständnisses werden selbstüberwachte Methoden jedoch typischerweise nur als Gewichtsinitialisierungsschritt für aufgaben-spezifisches Fein-Tuning verwendet, was ihren Nutzen für die allgemeine Merkmalsextraktion einschränkt. Diese Arbeit behebt diesen Mangel, indem sie ein robustes Evaluationsprotokoll vorschlägt, das speziell dafür entwickelt wurde, die Qualität selbstüberwachter Merkmale für das 3D-Szenenverständnis zu bewerten. Unser Protokoll verwendet Multi-Resolution-Feature-Sampling von hierarchischen Modellen, um reichhaltige punktbasierte Repräsentationen zu erstellen, die die semantischen Fähigkeiten des Modells erfassen und somit für die Bewertung mit Linear-Probing- und Nearest-Neighbor-Methoden geeignet sind. Darüber hinaus stellen wir das erste selbstüberwachte Modell vor, das ähnlich gut abschneidet wie überwachte Modelle, wenn nur sofort einsatzbereite Merkmale in einem Linear-Probing-Setup verwendet werden. Insbesondere wird unser Modell nativ in 3D mit einem neuartigen selbstüberwachten Ansatz trainiert, der auf einem Masked Scene Modeling-Ziel basiert, das tiefe Merkmale maskierter Patches auf eine Bottom-Up-Weise rekonstruiert und speziell auf hierarchische 3D-Modelle zugeschnitten ist. Unsere Experimente zeigen nicht nur, dass unsere Methode eine wettbewerbsfähige Leistung zu überwachten Modellen erreicht, sondern auch bestehende selbstüberwachte Ansätze deutlich übertrifft. Das Modell und der Trainingscode sind in unserem Github-Repository verfügbar (https://github.com/phermosilla/msm).

RobustDexGrasp: Robuste geschickte Greifbewegung von allgemeinen Objekten basierend auf Einzelbildwahrnehmung
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

Robustes Greifen verschiedener Objekte basierend auf Einzelbildwahrnehmung ist grundlegend für geschickte Roboter. Bisherige Arbeiten stützen sich oft auf vollständig beobachtbare Objekte, Experten-Demonstrationen oder statische Greifposen, was ihre Generalisierungsfähigkeit und Anpassungsfähigkeit an externe Störungen einschränkt. In dieser Arbeit präsentieren wir ein auf Verstärkungslernen basierendes Framework, das das null-Shot dynamische geschickte Greifen einer Vielzahl von unbekannten Objekten aus Einzelbildwahrnehmung ermöglicht, während adaptive Bewegungen als Reaktion auf externe Störungen ausgeführt werden. Wir verwenden eine handzentrische Objektdarstellung zur Extraktion von Formmerkmalen, die interaktionsrelevante lokale Formen betont und so die Robustheit gegenüber Formvarianz und Unsicherheit erhöht. Um eine effektive Handanpassung an Störungen bei begrenzten Beobachtungen zu ermöglichen, schlagen wir eine gemischte Curriculum-Lernstrategie vor, die zunächst Imitationslernen nutzt, um eine mit privilegiertem Echtzeit-Feedback aus visuellen und taktilen Daten trainierte Policy zu destillieren, und schrittweise zu Verstärkungslernen übergeht, um adaptive Bewegungen unter Störungen durch Beobachtungsrauschen und dynamische Randomisierung zu erlernen. Unsere Experimente zeigen eine starke Generalisierung beim Greifen unbekannter Objekte mit zufälligen Posen, mit Erfolgsraten von 97,0 % über 247.786 simulierte Objekte und 94,6 % über 512 reale Objekte. Wir demonstrieren auch die Robustheit unserer Methode gegenüber verschiedenen Störungen, einschließlich unbeobachteter Objektbewegungen und externer Kräfte, durch quantitative und qualitative Auswertungen. Projektseite: https://zdchan.github.io/Robust_DexGrasp/

Sind wir mit der objektzentrierten Lernforschung am Ende?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

Objektzentriertes Lernen (Object-centric Learning, OCL) zielt darauf ab, Repräsentationen zu erlernen, die ausschließlich ein Objekt kodieren und es von anderen Objekten oder Hintergrundinformationen in einer Szene isolieren. Dieser Ansatz unterstützt verschiedene Ziele, darunter die Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD), effiziente Zusammensetzung mit wenigen Beispielen und die Modellierung strukturierter Umgebungen. Der Großteil der Forschung konzentrierte sich auf die Entwicklung unüberwachter Mechanismen, die Objekte in diskrete Slots im Repräsentationsraum trennen, bewertet durch unüberwachte Objekterkennung. Mit den jüngsten, probeneffizienten Segmentierungsmodellen können wir jedoch Objekte im Pixelraum trennen und unabhängig voneinander kodieren. Dies erzielt bemerkenswerte Zero-Shot-Leistungen auf OOD-Objekterkennungs-Benchmarks, ist skalierbar für Foundation-Modelle und kann eine variable Anzahl von Slots ohne Anpassungen verarbeiten. Somit wurde das Ziel von OCL-Methoden, objektzentrierte Repräsentationen zu erhalten, weitgehend erreicht. Trotz dieses Fortschritts bleibt eine zentrale Frage offen: Wie trägt die Fähigkeit, Objekte innerhalb einer Szene zu trennen, zu breiteren OCL-Zielen wie der OOD-Generalisierung bei? Wir gehen dieser Frage nach, indem wir die OOD-Generalisierungsherausforderung, die durch irreführende Hintergrundinformationen verursacht wird, durch die Linse des OCL untersuchen. Wir schlagen eine neuartige, trainingsfreie Methode namens Object-Centric Classification with Applied Masks (OCCAM) vor und zeigen, dass die segmentierungsbasierte Kodierung einzelner Objekte slot-basierte OCL-Methoden deutlich übertrifft. Dennoch bleiben Herausforderungen in realen Anwendungen bestehen. Wir stellen der OCL-Community ein Toolbox zur Verfügung, um skalierbare objektzentrierte Repräsentationen zu nutzen, und konzentrieren uns auf praktische Anwendungen und grundlegende Fragen, wie das Verständnis der Objektwahrnehmung in der menschlichen Kognition. Unser Code ist verfügbar unter https://github.com/AlexanderRubinstein/OCCAM{hier}.

Vorverarbeitung von Sprachmodellen zur Entdeckung diachroner Sprachveränderungen
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

Große Sprachmodelle (LLMs) haben Potenzial als Werkzeuge für wissenschaftliche Entdeckungen gezeigt. Dies hat ein wachsendes Interesse an ihrer Verwendung in humanistischen Disziplinen wie der historischen Linguistik und den Literaturwissenschaften geweckt. Diese Felder konstruieren oft Argumente auf der Grundlage von Abgrenzungen wie Genre oder, weniger flexibel, Zeitperioden. Obwohl Bemühungen unternommen wurden, die Inferenz auf spezifische Domänen durch Feinabstimmung oder Modellbearbeitung zu beschränken, vertreten wir die Ansicht, dass die einzige echte Garantie eine domänenbegrenzte Vorabschulung ist – in der Regel ein daten- und rechenintensives Unterfangen. Wir zeigen, dass effiziente Vorabschulungstechniken nützliche Modelle über Korpora erzeugen können, die zu groß für eine einfache manuelle Überprüfung, aber zu klein für „typische“ LLM-Ansätze sind. Wir verwenden eine neuartige Datumszuweisungs-Pipeline, um einen zeitlich segmentierten Datensatz von fünf 10-Millionen-Wort-Abschnitten zu erhalten. Wir trainieren zwei entsprechende Batterien von fünf Modellen über diese Korpussegmente, effizient vorabgeschult und Llama3-8B-Parameter effizient feinabgestimmt. Wir stellen fest, dass die vorabgeschulten Modelle schneller zu trainieren sind als die feinabgestimmten Baselines und dass sie die historischen Abteilungen unseres Korpus besser respektieren. Die Betonung von Geschwindigkeit und Präzision gegenüber a-historischer Vollständigkeit ermöglicht eine Reihe neuartiger Ansätze zur Hypothesenentdeckung und -prüfung in unseren Zielgebieten. Indem wir die diachrone Linguistik als Testumgebung verwenden, zeigen wir, dass unsere Methode die Erkennung einer vielfältigen Reihe von Phänomenen ermöglicht, einschließlich lexikalischer Veränderungen en masse, nicht-lexikalischer (grammatikalischer und morphologischer) Veränderungen sowie der Einführung/Veraltung von Wortbedeutungen. Wir stellen eine einsatzbereite Pipeline zur Verfügung, die die Erweiterung unseres Ansatzes auf andere Zielgebiete mit nur minimaler Anpassung ermöglicht.

RuOpinionNE-2024: Extraktion von Meinungstupeln aus russischen Nachrichtentexten
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

In diesem Artikel stellen wir die Dialogue Evaluation Shared Task zur Extraktion strukturierter Meinungen aus russischen Nachrichtentexten vor. Die Aufgabe des Wettbewerbs besteht darin, Meinungstupel für einen gegebenen Satz zu extrahieren; die Tupel setzen sich aus einem Meinungsträger, dessen Zielobjekt, einem Ausdruck und der Einstellung des Trägers gegenüber dem Zielobjekt zusammen. Insgesamt erhielt die Aufgabe mehr als 100 Einreichungen. Die Teilnehmer experimentierten hauptsächlich mit großen Sprachmodellen in Zero-Shot-, Few-Shot- und Fine-Tuning-Formaten. Das beste Ergebnis auf dem Testset wurde durch das Fine-Tuning eines großen Sprachmodells erzielt. Wir verglichen außerdem 30 Prompts und 11 Open-Source-Sprachmodelle mit 3 bis 32 Milliarden Parametern in den 1-Shot- und 10-Shot-Einstellungen und identifizierten die besten Modelle und Prompts.

Schnelle kontrollierte Generierung aus Sprachmodellen mit adaptiv gewichtetem Rejection Sampling
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira

Der dominante Ansatz zur Generierung aus Sprachmodellen unter Berücksichtigung einer bestimmten Einschränkung ist das lokal eingeschränkte Decodieren (LCD), bei dem Token in jedem Zeitschritt inkrementell so abgetastet werden, dass die Einschränkung niemals verletzt wird. Typischerweise wird dies durch Token-Masking erreicht: Es wird über das Vokabular iteriert und nicht konforme Token ausgeschlossen. Es gibt zwei wichtige Probleme bei diesem Ansatz. (i) Die Bewertung der Einschränkung für jedes Token kann unverhältnismäßig teuer sein – die Vokabulare von Sprachmodellen überschreiten oft 100.000 Token. (ii) LCD kann die globale Verteilung über Zeichenketten verzerren, indem Token nur basierend auf lokalen Informationen abgetastet werden, selbst wenn sie in Sackgassen führen. Diese Arbeit stellt einen neuen Algorithmus vor, der beide Probleme adressiert. Erstens schlagen wir, um die Bewertung einer Einschränkung auf dem gesamten Vokabular in jedem Generierungsschritt zu vermeiden, einen adaptiven Rejection-Sampling-Algorithmus vor, der typischerweise um Größenordnungen weniger Einschränkungsbewertungen erfordert. Zweitens zeigen wir, wie dieser Algorithmus erweitert werden kann, um mit sehr geringem zusätzlichem Aufwand Schätzungen mit geringer Varianz und unverzerrten Gewichten zu erzeugen – Schätzungen, die sicher innerhalb zuvor vorgeschlagener sequentieller Monte-Carlo-Algorithmen verwendet werden können, um das kurzsichtige Verhalten der lokalen Einschränkungsdurchsetzung zu korrigieren. Durch umfangreiche empirische Bewertungen in den Bereichen Text-zu-SQL, Molekülsynthese, Zielinferenz, Mustererkennung und JSON-Domänen zeigen wir, dass unser Ansatz den state-of-the-art Baselines überlegen ist, eine breitere Klasse von Einschränkungen unterstützt und sowohl die Laufzeit als auch die Leistung verbessert. Zusätzliche theoretische und empirische Analysen zeigen, dass die Laufzeiteffizienz unserer Methode durch ihre dynamische Nutzung von Berechnungen angetrieben wird, die mit der Divergenz zwischen dem uneingeschränkten und dem eingeschränkten Sprachmodell skaliert, und als Konsequenz sind die Laufzeitverbesserungen für bessere Modelle größer.

papers.title

papers.description

DDT: Entkoppelter Diffusions-Transformer
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

OLMoTrace: Rückverfolgung von Sprachmodell-Ausgaben zu Billionen von Trainings-Tokens
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

Fehlende Prämissen verstärken Grübeln: Verlieren Reasoning-Modelle ihre Fähigkeit zum kritischen Denken?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

FantasyTalking: Realistische Talking-Portrait-Generierung durch kohärente Bewegungsynthese
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

Ein einheitliches agentenbasiertes Framework zur Bewertung der bedingten Bildgenerierung
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

GenDoP: Autoregressive Erzeugung von Kameratrajektorien als Director of Photography
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

Ein nüchterner Blick auf Fortschritte im Bereich des Sprachmodell-Denkens: Fallstricke und Wege zur Reproduzierbarkeit
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

OmniCaptioner: Ein Captioner, um sie alle zu beherrschen
OmniCaptioner: One Captioner to Rule Them All

Apr 9

Selbststeuernde Sprachmodelle
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

Alles im Video beschreiben: Fein abgestimmte objektzentrierte Beschreibung durch raumzeitliche multimodale Prompting
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

VideoChat-R1: Verbesserung der räumlich-zeitlichen Wahrnehmung durch Reinforcement-Feintuning
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

WildGS-SLAM: Monokulare Gaussian Splatting SLAM in dynamischen Umgebungen
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

DiTaiListener: Kontrollierbare Erzeugung hochwertiger Zuhörer-Videos mit Diffusionsmodellen
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

Masked Scene Modeling: Verringerung der Lücke zwischen überwachtem und selbstüberwachtem Lernen im 3D-Szenenverständnis
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

RobustDexGrasp: Robuste geschickte Greifbewegung von allgemeinen Objekten basierend auf Einzelbildwahrnehmung
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

Sind wir mit der objektzentrierten Lernforschung am Ende?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

Vorverarbeitung von Sprachmodellen zur Entdeckung diachroner Sprachveränderungen
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

RuOpinionNE-2024: Extraktion von Meinungstupeln aus russischen Nachrichtentexten
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

Schnelle kontrollierte Generierung aus Sprachmodellen mit adaptiv gewichtetem Rejection Sampling
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira