papers.title

papers.description

TÜLU 3: Vorstoß in die Grenzbereiche des Open Language Model Post-Trainings
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

ByNathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi

Die Post-Training von Sprachmodellen wird angewendet, um Verhaltensweisen zu verfeinern und neue Fähigkeiten bei einer Vielzahl von aktuellen Sprachmodellen zu erschließen, jedoch hinken offene Anleitungen zur Anwendung dieser Techniken den proprietären hinterher. Die zugrunde liegenden Trainingsdaten und Anleitungen für das Post-Training sind gleichzeitig die wichtigsten Puzzlestücke und der Bereich mit der geringsten Transparenz. Um diese Lücke zu schließen, stellen wir TÜLU 3 vor, eine Familie von vollständig offenen, hochmodernen post-trainierten Modellen, zusammen mit ihren Daten, dem Code und den Trainingsanleitungen, die als umfassender Leitfaden für moderne Post-Training-Techniken dienen. TÜLU 3, das auf den Basismodellen von Llama 3.1 aufbaut, erzielt Ergebnisse, die die instruktiven Versionen von Llama 3.1, Qwen 2.5, Mistral und sogar geschlossene Modelle wie GPT-4o-mini und Claude 3.5-Haiku übertreffen. Die Trainingsalgorithmen für unsere Modelle umfassen überwachtes Feintuning (SFT), Direkte Präferenzoptimierung (DPO) und eine neuartige Methode, die wir Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) nennen. Mit TÜLU 3 führen wir ein Multi-Task-Bewertungsschema für Post-Training-Anleitungen mit Entwicklungs- und ungesehenen Bewertungen, Standard-Benchmark-Implementierungen und eine umfangreiche Entkontaminierung vorhandener offener Datensätze zu diesen Benchmarks ein. Wir schließen mit einer Analyse und Diskussion von Trainingsmethoden, die die Leistung nicht zuverlässig verbessert haben. Zusätzlich zu den Modellgewichten und der Demo von TÜLU 3 veröffentlichen wir das vollständige Rezept - einschließlich Datensätzen für verschiedene Kernfähigkeiten, einem robusten Toolkit für die Datenkuratierung und -bewertung, dem Trainingscode und der Infrastruktur sowie, am wichtigsten, einem detaillierten Bericht zur Reproduktion und weiteren Anpassung des Ansatzes von TÜLU 3 an weitere Bereiche.

OminiControl: Minimale und universelle Steuerung für den Diffusionstransformator
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

In diesem Paper stellen wir OminiControl vor, ein äußerst vielseitiges und parameter-effizientes Framework, das Bildbedingungen in vortrainierte Diffusion Transformer (DiT) Modelle integriert. Im Kern nutzt OminiControl einen Mechanismus zur Parameterwiederverwendung, der es dem DiT ermöglicht, Bildbedingungen mithilfe seiner selbst als leistungsstarkem Rückgrat zu kodieren und mit seinen flexiblen multimodalen Aufmerksamkeitsverarbeitern zu verarbeiten. Im Gegensatz zu bestehenden Methoden, die stark auf zusätzliche Encoder-Module mit komplexen Architekturen angewiesen sind, integriert OminiControl (1) injizierte Bildbedingungen effektiv und effizient mit nur ~0,1% zusätzlichen Parametern und (2) behandelt eine Vielzahl von Bildkonditionierungsaufgaben auf einheitliche Weise, einschließlich subjektgesteuerter Generierung und räumlich ausgerichteter Bedingungen wie Kanten, Tiefe und mehr. Diese Fähigkeiten werden durch das Training an Bildern, die vom DiT selbst generiert wurden, erreicht, was insbesondere für die subjektgesteuerte Generierung vorteilhaft ist. Umfangreiche Evaluationen zeigen, dass OminiControl bestehende UNet-basierte und DiT-adaptierte Modelle sowohl in der subjektgesteuerten als auch in der räumlich ausgerichteten bedingten Generierung übertrifft. Darüber hinaus veröffentlichen wir unseren Trainingsdatensatz, Subjects200K, eine vielfältige Sammlung von über 200.000 identitätskonsistenten Bildern, zusammen mit einer effizienten Datensynthesepipeline, um die Forschung im Bereich der subjektkonsistenten Generierung voranzutreiben.

Groß angelegtes Text-zu-Bild-Modell mit Inpainting ist ein Zero-Shot subjektgesteuerter Bildgenerator.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

Die subjektgesteuerte Text-zu-Bild-Erzeugung zielt darauf ab, Bilder eines neuen Subjekts in einem gewünschten Kontext zu erstellen, indem sowohl die visuellen Merkmale des Subjekts als auch der semantische Inhalt einer Textvorgabe präzise erfasst werden. Traditionelle Methoden verlassen sich auf zeit- und ressourcenintensives Feintuning für die Ausrichtung des Subjekts, während aktuelle Zero-Shot-Ansätze die Bildvorgabe im Flug nutzen, wobei oft die Ausrichtung des Subjekts geopfert wird. In diesem Papier stellen wir Diptych Prompting vor, einen neuartigen Zero-Shot-Ansatz, der die emergente Eigenschaft der Diptychon-Erzeugung in groß angelegten Text-zu-Bild-Modellen nutzt, um eine präzise Ausrichtung des Subjekts als Ausbesserungsaufgabe neu zu interpretieren. Diptych Prompting ordnet ein unvollständiges Diptychon mit dem Referenzbild im linken Panel an und führt eine textkonditionierte Ausbesserung im rechten Panel durch. Wir verhindern zusätzlich unerwünschtes Inhaltsleck durch Entfernen des Hintergrunds im Referenzbild und verbessern feingliedrige Details im generierten Subjekt, indem wir die Aufmerksamkeitsgewichte zwischen den Panels während der Ausbesserung verstärken. Experimentelle Ergebnisse bestätigen, dass unser Ansatz signifikant besser abschneidet als Zero-Shot-Bildvorgabe-Methoden und zu Bildern führt, die von Benutzern visuell bevorzugt werden. Darüber hinaus unterstützt unsere Methode nicht nur die subjektgesteuerte Erzeugung, sondern auch die stilisierte Bildgenerierung und die subjektgesteuerte Bildbearbeitung, was die Vielseitigkeit in verschiedenen Bildgenerierungsanwendungen zeigt. Projektseite: https://diptychprompting.github.io/

Stilfreundlicher SNR-Sampler für stildominierte Generierung
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

Aktuelle groß angelegte Diffusionsmodelle erzeugen hochwertige Bilder, haben jedoch Schwierigkeiten, neue, personalisierte künstlerische Stile zu erlernen, was die Erstellung einzigartiger Stilvorlagen einschränkt. Feinabstimmung mit Referenzbildern ist der vielversprechendste Ansatz, aber oft werden Ziele und Rauschniveaus, die für das Vortraining verwendet wurden, blind genutzt, was zu suboptimaler Stilausrichtung führt. Wir schlagen den Style-friendly SNR-Sampler vor, der die Signal-Rausch-Verhältnis (SNR)-Verteilung während der Feinabstimmung aggressiv in Richtung höherer Rauschniveaus verschiebt, um sich auf Rauschniveaus zu konzentrieren, in denen stilistische Merkmale auftauchen. Dies ermöglicht es Modellen, einzigartige Stile besser zu erfassen und Bilder mit höherer Stilausrichtung zu erzeugen. Unsere Methode ermöglicht es Diffusionsmodellen, neue "Stilvorlagen" zu erlernen und zu teilen, was die personalisierte Inhaltsentwicklung verbessert. Wir zeigen die Fähigkeit, Stile wie persönliche Aquarellmalereien, minimalistische flache Cartoons, 3D-Renderings, Mehrfachbildansichten und Memes mit Text zu generieren, wodurch der Bereich der stilgetriebenen Generierung erweitert wird.

Eine flexible Methodik zur Entwicklung von Leitplanken für große Sprachmodelle angewendet auf die Erkennung von nicht zum Thema passenden Anfragen
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

Große Sprachmodelle sind anfällig für Missbrauch durch Off-Topic-Verwendung, bei der Benutzer diese Modelle dazu veranlassen können, Aufgaben außerhalb ihres beabsichtigten Anwendungsbereichs auszuführen. Aktuelle Sicherheitsvorkehrungen, die oft auf kuratierten Beispielen oder benutzerdefinierten Klassifikatoren beruhen, leiden unter hohen Fehlalarmraten, begrenzter Anpassungsfähigkeit und der Unpraktikabilität, realweltliche Daten zu verlangen, die nicht in der Vorproduktion verfügbar sind. In diesem Papier stellen wir eine flexible, datenfreie Methodik zur Entwicklung von Sicherheitsvorkehrungen vor, die diese Herausforderungen angeht. Indem wir den Problembereich qualitativ gründlich definieren und dies einem LLM übergeben, um vielfältige Anfragen zu generieren, konstruieren wir einen synthetischen Datensatz, um Off-Topic-Sicherheitsvorkehrungen zu benchmarken und zu trainieren, die heuristische Ansätze übertreffen. Darüber hinaus, indem wir die Aufgabe als Klassifizierung einrahmen, ob die Benutzeranfrage in Bezug auf die Systemanfrage relevant ist, generalisieren unsere Sicherheitsvorkehrungen effektiv auf andere Missbrauchskategorien, einschließlich Jailbreak und schädlicher Anfragen. Schließlich tragen wir weiterhin zum Feld bei, indem wir sowohl den synthetischen Datensatz als auch die Off-Topic-Sicherheitsvorrichtungsmodelle als Open Source bereitstellen, wertvolle Ressourcen zur Entwicklung von Sicherheitsvorkehrungen in Vorproduktionsumgebungen und zur Unterstützung zukünftiger Forschung und Entwicklung in der LLM-Sicherheit.

Meine Zeitmaschine: Personalisierte Gesichtsalterstransformation
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

Die Gesichtsalterung ist ein komplexer Prozess, der stark von mehreren Faktoren wie Geschlecht, Ethnizität, Lebensstil usw. abhängt, was es äußerst herausfordernd macht, ein globales Alterungsmodell zu erlernen, um das Altern für jede Person genau vorherzusagen. Bestehende Techniken erzeugen oft realistische und plausible Alterungsergebnisse, aber die verjüngten Bilder ähneln oft nicht dem Erscheinungsbild der Person im Zieltalter und erfordern daher eine Personalisierung. In vielen praktischen Anwendungen der virtuellen Alterung, z.B. VFX in Filmen und TV-Serien, ist oft ein Zugriff auf eine persönliche Fotosammlung des Benutzers verfügbar, die eine Alterung in einem kurzen Zeitintervall (20 bis 40 Jahre) zeigt. Naive Versuche, globale Alterungstechniken auf persönliche Fotosammlungen zu personalisieren, scheitern jedoch oft. Daher schlagen wir MyTimeMachine (MyTM) vor, das ein globales Alterungsmodell mit einer persönlichen Fotosammlung (unter Verwendung von nur 50 Bildern) kombiniert, um eine personalisierte Altersumwandlung zu erlernen. Wir stellen ein neuartiges Adapter-Netzwerk vor, das personalisierte Alterungseigenschaften mit globalen Alterungseigenschaften kombiniert und ein verjüngtes Bild mit StyleGAN2 erzeugt. Wir führen auch drei Verlustfunktionen ein, um das Adapter-Netzwerk mit personalisiertem Alterungsverlust, Extrapolationsregularisierung und adaptiver w-Norm-Regularisierung zu personalisieren. Unser Ansatz kann auch auf Videos erweitert werden und erreicht hochwertige, identitätserhaltende und zeitlich konsistente Alterungseffekte, die tatsächlichen Erscheinungsbildern im Zieltalter ähneln und damit seine Überlegenheit gegenüber State-of-the-Art-Ansätzen zeigen.

BALROG: Benchmarking des agentischen LLM- und VLM-Reasonings in Spielen
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

ByDavide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel

Große Sprachmodelle (LLMs) und Vision-Sprachmodelle (VLMs) verfügen über umfangreiches Wissen und zeigen vielversprechende Fähigkeiten im Bereich des Schlussfolgerns; dennoch haben sie immer noch Schwierigkeiten, in komplexen, dynamischen Umgebungen gut zu performen. Realweltaufgaben erfordern die Bewältigung komplexer Interaktionen, fortgeschrittenes räumliches Denken, langfristige Planung und kontinuierliche Erkundung neuer Strategien - Bereiche, in denen wir effektive Methoden zur umfassenden Bewertung dieser Fähigkeiten vermissen. Um diese Lücke zu schließen, stellen wir BALROG vor, einen neuartigen Benchmark, der entworfen wurde, um die Handlungsfähigkeiten von LLMs und VLMs durch eine vielfältige Auswahl an anspruchsvollen Spielen zu bewerten. Unser Benchmark integriert eine Reihe bestehender Umgebungen für bestärkendes Lernen mit unterschiedlichen Schwierigkeitsgraden, einschließlich Aufgaben, die von Nicht-Experten innerhalb von Sekunden lösbar sind, bis hin zu extrem herausfordernden, die Jahre dauern können, um sie zu meistern (z. B. die NetHack-Lernumgebung). Wir entwickeln fein abgestufte Metriken zur Leistungsmessung und führen eine umfassende Evaluation mehrerer beliebter Open-Source- und Closed-Source-LLMs und VLMs durch. Unsere Ergebnisse zeigen, dass die aktuellen Modelle zwar teilweise erfolgreich in den einfacheren Spielen sind, jedoch erhebliche Schwierigkeiten mit den anspruchsvolleren Aufgaben haben. Insbesondere beobachten wir schwerwiegende Mängel bei entscheidungsbezogenen Visionen, da die Modelle schlechter abschneiden, wenn visuelle Darstellungen der Umgebungen bereitgestellt werden. Wir veröffentlichen BALROG als einen offenen und benutzerfreundlichen Benchmark, um zukünftige Forschung und Entwicklung in der Handlungsgemeinschaft zu erleichtern.

Große multimodale Modelle können Merkmale in großen multimodalen Modellen interpretieren.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

In jüngster Zeit haben Fortschritte bei Large Multimodal Models (LMMs) zu bedeutenden Durchbrüchen sowohl in der Akademie als auch in der Industrie geführt. Eine Frage, die sich stellt, ist, wie wir als Menschen ihre internen neuronalen Repräsentationen verstehen können. Dieser Artikel geht einen ersten Schritt zur Beantwortung dieser Frage, indem er einen vielseitigen Rahmen zur Identifizierung und Interpretation der Semantik innerhalb von LMMs vorstellt. Konkret 1) wenden wir zunächst einen Sparse Autoencoder (SAE) an, um die Repräsentationen in für Menschen verständliche Merkmale zu entwirren. 2) Anschließend präsentieren wir einen automatischen Interpretationsrahmen, um die offenen semantischen Merkmale zu interpretieren, die in SAE von den LMMs selbst erlernt wurden. Wir nutzen diesen Rahmen, um das LLaVA-NeXT-8B-Modell mithilfe des LLaVA-OV-72B-Modells zu analysieren und zeigen, dass diese Merkmale das Verhalten des Modells effektiv lenken können. Unsere Ergebnisse tragen zu einem tieferen Verständnis bei, warum LMMs in bestimmten Aufgaben, einschließlich EQ-Tests, hervorragende Leistungen erbringen, und beleuchten die Art ihrer Fehler sowie potenzielle Strategien zu ihrer Korrektur. Diese Erkenntnisse bieten neue Einblicke in die internen Mechanismen von LMMs und legen Parallelen zu den kognitiven Prozessen des menschlichen Gehirns nahe.

VideoEspresso: Ein umfangreiches Ketten-von-Gedanken-Datenset für Feinabstufungs-Videobegründung durch Kernbildauswahl
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

Der Fortschritt großer Vision-Sprachmodelle (LVLMs) hat das multimodale Verständnis erheblich verbessert, dennoch bestehen Herausforderungen bei der Videobegründung aufgrund des Mangels an hochwertigen, umfangreichen Datensätzen. Bestehende Datensätze zur Video-Fragenbeantwortung (VideoQA) stützen sich oft auf kostspielige manuelle Annotationen mit unzureichender Granularität oder automatische Konstruktionsmethoden mit redundanten framegenauen Analysen, was ihre Skalierbarkeit und Effektivität für komplexe Begründungen einschränkt. Um diesen Herausforderungen zu begegnen, stellen wir VideoEspresso vor, einen neuartigen Datensatz, der VideoQA-Paare mit wesentlichen räumlichen Details und zeitlicher Kohärenz sowie multimodalen Annotationen von Zwischenschritten der Begründung enthält. Unsere Konstruktionspipeline verwendet eine semantikbewusste Methode zur Reduzierung von Redundanzen, gefolgt von der Generierung von QA-Paaren unter Verwendung von GPT-4o. Wir entwickeln außerdem Video-Chain-of-Thought (CoT)-Annotationen, um Begründungsprozesse zu bereichern, die GPT-4o dabei unterstützen, logische Beziehungen aus QA-Paaren und Videoinhalten zu extrahieren. Um das Potenzial hochwertiger VideoQA-Paare auszuschöpfen, schlagen wir ein Hybrid-LVLMs-Kollaborationsframework vor, das einen Frame-Selektor und ein zweistufiges instruktionsfeinabgestimmtes Begründungs-LVLM umfasst. Dieses Framework wählt adaptiv Kernframes aus und führt CoT-Begründungen unter Verwendung multimodaler Beweise durch. Anhand unseres vorgeschlagenen Benchmarks mit 14 Aufgaben im Vergleich zu 9 beliebten LVLMs übertrifft unsere Methode bestehende Baselines bei den meisten Aufgaben und zeigt überlegene videobegründende Fähigkeiten. Unser Code und Datensatz werden unter folgendem Link veröffentlicht: https://github.com/hshjerry/VideoEspresso

Effiziente Tokenisierung langer Videos durch Patch-basierte Koordinatenrekonstruktion.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

Die effiziente Tokenisierung von Videos bleibt eine Herausforderung beim Training von Bildverarbeitungsmodellen, die lange Videos verarbeiten können. Eine vielversprechende Richtung besteht darin, einen Tokenizer zu entwickeln, der lange Videoclips kodieren kann, da dies dem Tokenizer ermöglichen würde, die zeitliche Kohärenz von Videos besser für die Tokenisierung zu nutzen. Das Training bestehender Tokenizer auf langen Videos verursacht jedoch oft hohe Trainingskosten, da sie darauf trainiert sind, alle Frames auf einmal zu rekonstruieren. In diesem Papier stellen wir CoordTok vor, einen Video-Tokenizer, der eine Zuordnung von koordinatenbasierten Darstellungen zu den entsprechenden Patches von Eingabevideos lernt, inspiriert von den neuesten Fortschritten in 3D-generativen Modellen. Insbesondere kodiert CoordTok ein Video in faktorisierte Dreiebenen-Darstellungen und rekonstruiert Patches, die zufällig ausgewählten (x, y, t)-Koordinaten entsprechen. Dies ermöglicht das Training großer Tokenizer-Modelle direkt auf langen Videos, ohne übermäßige Trainingsressourcen zu benötigen. Unsere Experimente zeigen, dass CoordTok die Anzahl der Tokens zur Kodierung langer Videoclips drastisch reduzieren kann. Zum Beispiel kann CoordTok ein 128-Frames-Video mit einer Auflösung von 128 mal 128 in 1280 Tokens kodieren, während Baselines 6144 oder 8192 Tokens benötigen, um eine ähnliche Rekonstruktionsqualität zu erreichen. Wir zeigen weiterhin, dass diese effiziente Video-Tokenisierung ein speichereffizientes Training eines Diffusions-Transformators ermöglicht, der gleichzeitig 128 Frames generieren kann.

Neuartige Ansichtsextrapolation mit Video-Diffusionsprioritäten
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

Das Gebiet der neuartigen Ansichtssynthese hat dank der Entwicklung von Strahlungsfeldmethoden erhebliche Fortschritte gemacht. Die meisten Strahlungsfeldtechniken sind jedoch weitaus besser in der neuartigen Ansichtsinterpolation als in der neuartigen Ansichtsextrapolation, bei der die synthetisierten neuen Ansichten weit über die beobachteten Trainingsansichten hinausgehen. Wir haben den ViewExtrapolator entworfen, einen neuartigen Ansatz zur Ansichtssynthese, der die generativen Prioritäten der Stable Video Diffusion (SVD) für realistische neuartige Ansichtsextrapolation nutzt. Durch Neugestaltung des SVD-Denoisierungsprozesses verfeinert der ViewExtrapolator die von Strahlungsfeldern gerenderten, anfälligen Ansichten erheblich und verbessert die Klarheit und Realität der synthetisierten neuen Ansichten. Der ViewExtrapolator ist ein generischer neuartiger Ansichtsextrapolator, der mit verschiedenen Arten von 3D-Rendering arbeiten kann, wie Ansichten, die aus Punktwolken gerendert werden, wenn nur eine einzelne Ansicht oder monokulares Video verfügbar ist. Darüber hinaus erfordert der ViewExtrapolator kein Feintuning von SVD, was ihn sowohl daten- als auch recheneffizient macht. Umfangreiche Experimente zeigen die Überlegenheit des ViewExtrapolators bei der neuartigen Ansichtsextrapolation. Projektseite: https://kunhao-liu.github.io/ViewExtrapolator/.

VideoRepair: Verbesserung der Text-zu-Video-Generierung durch Bewertung von Fehlausrichtung und lokaler Verfeinerung
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

Aktuelle Text-zu-Video (T2V) Diffusionsmodelle haben beeindruckende Generierungsfähigkeiten in verschiedenen Bereichen gezeigt. Allerdings generieren diese Modelle oft Videos, die nicht mit den Textvorgaben übereinstimmen, insbesondere wenn die Vorgaben komplexe Szenen mit mehreren Objekten und Attributen beschreiben. Um dies zu lösen, stellen wir VideoRepair vor, ein neuartiges, modellagnostisches, trainingsfreies Videoverfeinerungsframework, das automatisch feingranulare Text-Video-Unstimmigkeiten identifiziert und explizites räumliches und textuelles Feedback generiert, um einem T2V-Diffusionsmodell gezielte, lokalisierte Verfeinerungen zu ermöglichen. VideoRepair besteht aus vier Phasen: In (1) der Videoauswertung erkennen wir Unstimmigkeiten, indem wir feingranulare Auswertungsfragen generieren und diese mit MLLM beantworten. In (2) der Verfeinerungsplanung identifizieren wir genau generierte Objekte und erstellen dann lokalisierte Vorgaben, um andere Bereiche im Video zu verfeinern. Anschließend segmentieren wir in (3) der Regionenzerlegung den korrekt generierten Bereich mithilfe eines kombinierten Verankerungsmoduls. Wir regenerieren das Video, indem wir die nicht übereinstimmenden Regionen anpassen und die korrekten Regionen in (4) der lokalen Verfeinerung beibehalten. Auf zwei beliebten Videogenerierungsbewertungen (EvalCrafter und T2V-CompBench) übertrifft VideoRepair deutlich aktuelle Vergleichsmodelle in verschiedenen Text-Video-Abstimmungsmetriken. Wir bieten eine umfassende Analyse der VideoRepair-Komponenten und qualitative Beispiele an.

WildLMa: Langfristige Horizont-Loco-Manipulation in freier Wildbahn
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

Die mobile Manipulation "in freier Wildbahn" zielt darauf ab, Roboter in vielfältigen realen Umgebungen einzusetzen, was erfordert, dass der Roboter (1) Fähigkeiten besitzt, die sich auf Objektkonfigurationen verallgemeinern lassen; (2) in der Lage ist, langfristige Aufgaben in verschiedenen Umgebungen auszuführen; und (3) komplexe Manipulationen über das Greifen und Ablegen hinaus durchführen kann. Vierbeinige Roboter mit Manipulatoren versprechen, den Arbeitsbereich zu erweitern und eine robuste Fortbewegung zu ermöglichen, aber bisherige Ergebnisse untersuchen eine solche Fähigkeit nicht. Dieser Artikel schlägt WildLMa mit drei Komponenten vor, um diese Probleme anzugehen: (1) Anpassung eines erlernten Niedrigpegel-Controllers für VR-gestützte Ganzkörper-Fernsteuerung und Tragfähigkeit; (2) WildLMa-Skill - eine Bibliothek von verallgemeinerbaren visuomotorischen Fähigkeiten, die durch Imitationslernen oder Heuristiken erworben wurden; und (3) WildLMa-Planner - eine Schnittstelle erlernter Fähigkeiten, die LLM-Planern ermöglichen, Fähigkeiten für langfristige Aufgaben zu koordinieren. Wir zeigen die Bedeutung hochwertiger Trainingsdaten, indem wir eine höhere Greiferfolgsrate im Vergleich zu bestehenden RL-Baselines erreichen, indem wir nur zehn Demonstrationen verwenden. WildLMa nutzt CLIP für sprachkonditioniertes Imitationslernen, das sich empirisch auf Objekte verallgemeinert, die in den Trainingsdemonstrationen nicht gesehen wurden. Neben umfangreicher quantitativer Bewertung zeigen wir qualitativ praktische Roboteranwendungen, wie das Aufräumen von Müll in Universitätsfluren oder Außengeländen, das Bedienen von Gelenkobjekten und das Umstellen von Gegenständen in einem Bücherregal.

Anpassung von Vision-Grundlagenmodellen für robuste Cloud-Segmentierung in Fernerkundungsbildern
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

Die Segmentierung von Wolken ist eine entscheidende Herausforderung bei der Interpretation von Fernerkundungsbildern, da ihre Genauigkeit direkt die Effektivität der nachfolgenden Datenverarbeitung und -analyse beeinflusst. In letzter Zeit haben Vision-Grundlagenmodelle (VGM) leistungsstarke Verallgemeinerungsfähigkeiten über verschiedene visuelle Aufgaben hinweg gezeigt. In diesem Artikel stellen wir einen parameter-effizienten adaptiven Ansatz namens Cloud-Adapter vor, der darauf abzielt, die Genauigkeit und Robustheit der Wolkensegmentierung zu verbessern. Unsere Methode nutzt ein VGM, das auf allgemeinen Domänendaten vortrainiert ist und eingefroren bleibt, was zusätzliches Training überflüssig macht. Cloud-Adapter integriert ein leichtgewichtiges räumliches Wahrnehmungsmodul, das zunächst ein Convolutional Neural Network (ConvNet) verwendet, um dichte räumliche Repräsentationen zu extrahieren. Diese mehrskaligen Merkmale werden dann aggregiert und dienen als kontextuelle Eingaben für ein Anpassungsmodul, das die eingefrorenen Transformer-Schichten innerhalb des VGM moduliert. Experimentelle Ergebnisse zeigen, dass der Cloud-Adapter-Ansatz, der nur 0,6% der trainierbaren Parameter des eingefrorenen Backbone verwendet, signifikante Leistungssteigerungen erzielt. Cloud-Adapter erreicht konsistent eine State-of-the-Art (SOTA)-Leistung über eine Vielzahl von Wolkensegmentierungsdatensätzen aus verschiedenen Satellitenquellen, Sensorenserien, Datenverarbeitungsebenen, Landbedeckungsszenarien und Annotierungsgranularitäten. Wir haben den Quellcode und die vortrainierten Modelle unter https://github.com/XavierJiezou/Cloud-Adapter veröffentlicht, um weitere Forschung zu unterstützen.

Einer, um sie alle zu beherrschen: natürliche Sprache zur Verknüpfung von Kommunikation, Wahrnehmung und Handlung.
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone

In den letzten Jahren hat die Forschung im Bereich der Mensch-Roboter-Interaktion den Fokus darauf gelegt, Roboter zu entwickeln, die komplexe menschliche Anweisungen verstehen und Aufgaben in dynamischen und vielfältigen Umgebungen ausführen können. Diese Systeme haben eine breite Palette von Anwendungen, von persönlicher Assistenz bis hin zur industriellen Robotik, wobei die Bedeutung betont wird, dass Roboter flexibel, natürlich und sicher mit Menschen interagieren. Dieser Artikel stellt eine fortschrittliche Architektur für die robotische Aktionsplanung vor, die Kommunikation, Wahrnehmung und Planung mit Large Language Models (LLMs) integriert. Unser System ist darauf ausgelegt, Befehle, die in natürlicher Sprache ausgedrückt sind, in ausführbare Roboteraktionen zu übersetzen, Umgebungsinformationen zu integrieren und Pläne basierend auf Echtzeit-Feedback dynamisch zu aktualisieren. Das Planungsmodul ist der Kern des Systems, in dem LLMs, die in ein modifiziertes ReAct-Framework eingebettet sind, eingesetzt werden, um Benutzerbefehle zu interpretieren und auszuführen. Durch die Nutzung ihres umfangreichen vorab trainierten Wissens können LLMs Benutzeranfragen effektiv verarbeiten, ohne neues Wissen über die sich ändernde Umgebung einführen zu müssen. Das modifizierte ReAct-Framework erweitert den Ausführungsraum weiter, indem es Echtzeit-Umwahrnehmung und die Ergebnisse physischer Handlungen bereitstellt. Durch die Kombination robuster und dynamischer semantischer Kartenrepräsentationen als Graphen mit Steuerungskomponenten und Fehlererklärungen verbessert diese Architektur die Anpassungsfähigkeit des Roboters, die Aufgabenausführung und die nahtlose Zusammenarbeit mit menschlichen Benutzern in gemeinsamen und dynamischen Umgebungen. Durch die Integration von kontinuierlichen Feedback-Schleifen mit der Umgebung kann das System den Plan dynamisch an unerwartete Änderungen anpassen, um die Fähigkeit des Roboters zur Aufgabenausführung zu optimieren. Durch die Verwendung eines Datensatzes früherer Erfahrungen ist es möglich, detailliertes Feedback über das Versagen bereitzustellen und den Kontext der LLMs für die nächste Iteration mit Vorschlägen zur Überwindung des Problems zu aktualisieren.

papers.title

papers.description

TÜLU 3: Vorstoß in die Grenzbereiche des Open Language Model Post-Trainings
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

OminiControl: Minimale und universelle Steuerung für den Diffusionstransformator
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

Groß angelegtes Text-zu-Bild-Modell mit Inpainting ist ein Zero-Shot subjektgesteuerter Bildgenerator.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

Stilfreundlicher SNR-Sampler für stildominierte Generierung
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

Eine flexible Methodik zur Entwicklung von Leitplanken für große Sprachmodelle angewendet auf die Erkennung von nicht zum Thema passenden Anfragen
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

Meine Zeitmaschine: Personalisierte Gesichtsalterstransformation
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

BALROG: Benchmarking des agentischen LLM- und VLM-Reasonings in Spielen
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

Große multimodale Modelle können Merkmale in großen multimodalen Modellen interpretieren.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

VideoEspresso: Ein umfangreiches Ketten-von-Gedanken-Datenset für Feinabstufungs-Videobegründung durch Kernbildauswahl
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

Effiziente Tokenisierung langer Videos durch Patch-basierte Koordinatenrekonstruktion.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

Neuartige Ansichtsextrapolation mit Video-Diffusionsprioritäten
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

VideoRepair: Verbesserung der Text-zu-Video-Generierung durch Bewertung von Fehlausrichtung und lokaler Verfeinerung
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

WildLMa: Langfristige Horizont-Loco-Manipulation in freier Wildbahn
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

Anpassung von Vision-Grundlagenmodellen für robuste Cloud-Segmentierung in Fernerkundungsbildern
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

Einer, um sie alle zu beherrschen: natürliche Sprache zur Verknüpfung von Kommunikation, Wahrnehmung und Handlung.
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone