HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

23 papers found

CLIMB: Clustering-basierte iterative Datenmischung zur Bootstrapping-Vorverarbeitung von Sprachmodellen
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Apr 17

ByShizhe Diao, Yu Yang, Yonggan Fu, Xin Dong, Dan Su, Markus Kliegl, Zijia Chen, Peter Belcak, Yoshi Suhara, Hongxu Yin, Mostofa Patwary, Yingyan, Lin, Jan Kautz, Pavlo Molchanov

Vorverarbeitungsdatensätze werden typischerweise aus Webinhalten gesammelt und weisen keine inhärenten Domänenunterteilungen auf. Beispielsweise enthalten weit verbreitete Datensätze wie Common Crawl keine expliziten Domänenlabels, während die manuelle Kuratierung von gelabelten Datensätzen wie The Pile arbeitsintensiv ist. Folglich bleibt die Identifizierung einer optimalen Vorverarbeitungsdatenmischung ein herausforderndes Problem, obwohl sie erhebliche Vorteile für die Vorverarbeitungsleistung bietet. Um diese Herausforderungen zu bewältigen, schlagen wir CLustering-based Iterative Data Mixture Bootstrapping (CLIMB) vor, ein automatisiertes Framework, das Datenmischungen in einem Vorverarbeitungskontext entdeckt, bewertet und verfeinert. Konkret bettet CLIMB groß angelegte Datensätze in einen semantischen Raum ein, clustert sie und sucht dann iterativ nach optimalen Mischungen unter Verwendung eines kleineren Proxy-Modells und eines Prädiktors. Wenn unser 1B-Modell kontinuierlich mit dieser Mischung auf 400B Tokens trainiert wird, übertrifft es den State-of-the-Art Llama-3.2-1B um 2,0%. Darüber hinaus beobachten wir, dass die Optimierung für eine spezifische Domäne (z. B. Sozialwissenschaften) eine Verbesserung von 5 % gegenüber der zufälligen Stichprobenziehung erzielt. Schließlich stellen wir ClimbLab vor, ein gefiltertes 1,2-Billionen-Token-Korpus mit 20 Clustern als Forschungsumgebung, und ClimbMix, einen kompakten, aber leistungsstarken 400-Milliarden-Token-Datensatz, der für eine effiziente Vorverarbeitung konzipiert ist und unter einem gleichen Token-Budget eine überlegene Leistung liefert. Wir analysieren die endgültige Datenmischung und erläutern die Merkmale einer optimalen Datenmischung. Unsere Daten sind verfügbar unter: https://research.nvidia.com/labs/lpr/climb/

Antidistillationsprobennahme
Antidistillation Sampling

Apr 17

ByYash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter

Frontier-Modelle, die erweiterte Denkprozesse erzeugen, produzieren unbeabsichtigt reiche Token-Sequenzen, die die Modell-Distillation erleichtern können. In Anerkennung dieser Schwachstelle könnten Modellbesitzer nach Sampling-Strategien suchen, die die Effektivität der Distillation begrenzen, ohne die Modellleistung zu beeinträchtigen. Antidistillation-Sampling bietet genau diese Fähigkeit. Durch strategische Modifikation der Wahrscheinlichkeitsverteilung des nächsten Tokens eines Modells vergiftet Antidistillation-Sampling Denkprozesse und macht sie deutlich weniger effektiv für die Distillation, während die praktische Nützlichkeit des Modells erhalten bleibt. Weitere Details finden Sie unter https://antidistillation.com.

Eingaberahmenkontext in Next-Frame-Vorhersagemodellen für die Videogenerierung verpacken
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Apr 17

ByLvmin Zhang, Maneesh Agrawala

Wir stellen eine neuronale Netzwerkarchitektur namens FramePack vor, um Modelle für die Vorhersage des nächsten Bildes (oder des nächsten Bildabschnitts) für die Videogenerierung zu trainieren. FramePack komprimiert die Eingabebilder, um die Kontextlänge des Transformers auf eine feste Anzahl zu begrenzen, unabhängig von der Videolänge. Dadurch können wir eine große Anzahl von Bildern mit Video-Diffusion verarbeiten, wobei der Rechenaufwand ähnlich wie bei der Bild-Diffusion bleibt. Dies ermöglicht auch deutlich größere Trainings-Batch-Größen für Videos (die Batch-Größen werden mit denen des Bild-Diffusion-Trainings vergleichbar). Zudem schlagen wir eine Anti-Drifting-Sampling-Methode vor, die Bilder in umgekehrter zeitlicher Reihenfolge generiert, mit früh festgelegten Endpunkten, um Exposure Bias (Fehlerakkumulation über Iterationen) zu vermeiden. Schließlich zeigen wir, dass bestehende Video-Diffusion-Modelle mit FramePack feinabgestimmt werden können und ihre visuelle Qualität verbessert werden kann, da die Vorhersage des nächsten Bildes ausgewogenere Diffusionszeitpläne mit weniger extremen Flussverschiebungs-Zeitschritten unterstützt.

Generieren, aber Verifizieren: Reduzierung von Halluzinationen in Vision-Sprach-Modellen durch retrospektives Resampling
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

Apr 17

ByTsung-Han Wu, Heekyung Lee, Jiaxin Ge, Joseph E. Gonzalez, Trevor Darrell, David M. Chan

Vision-Language Models (VLMs) zeichnen sich durch visuelles Verständnis aus, leiden jedoch häufig unter visuellen Halluzinationen, bei denen sie Beschreibungen von nicht existierenden Objekten, Handlungen oder Konzepten generieren. Dies stellt erhebliche Risiken in sicherheitskritischen Anwendungen dar. Bestehende Methoden zur Minderung von Halluzinationen folgen typischerweise einem von zwei Paradigmen: Generierungsanpassung, bei der das Decodierungsverhalten modifiziert wird, um den Text mit den visuellen Eingaben abzugleichen, und nachträgliche Verifizierung, bei der externe Modelle die Ausgaben bewerten und korrigieren. Obwohl effektiv, stützen sich Generierungsanpassungsmethoden oft auf Heuristiken und verfügen über keine Korrekturmechanismen, während die nachträgliche Verifizierung kompliziert ist, typischerweise mehrere Modelle erfordert und dazu neigt, Ausgaben abzulehnen, anstatt sie zu verfeinern. In dieser Arbeit stellen wir REVERSE vor, ein einheitliches Framework, das halluzinationsbewusstes Training mit einer Echtzeit-Selbstverifizierung integriert. Durch die Nutzung eines neuen Halluzinations-Verifizierungs-Datensatzes mit über 1,3 Millionen halbsynthetischen Proben sowie einer neuartigen retrospektiven Resampling-Technik zur Inferenzzeit ermöglicht unser Ansatz VLMs, Halluzinationen während der Generierung zu erkennen und diese dynamisch zu überarbeiten. Unsere Auswertungen zeigen, dass REVERSE eine state-of-the-art Reduzierung von Halluzinationen erreicht und die besten bestehenden Methoden um bis zu 12 % auf CHAIR-MSCOCO und 28 % auf HaloQuest übertrifft. Unser Datensatz, Modell und Code sind verfügbar unter: https://reverse-vlm.github.io.

Perception Encoder: Die besten visuellen Embeddings befinden sich nicht am Ausgang des Netzwerks.
Perception Encoder: The best visual embeddings are not at the output of the network

Apr 17

ByDaniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer

Wir stellen Perception Encoder (PE) vor, einen modernen Encoder für das Verständnis von Bildern und Videos, der durch einfaches Vision-Language-Lernen trainiert wird. Traditionell haben Vision-Encoder auf einer Vielzahl von Vorab-Trainingszielen basiert, die jeweils auf spezifische nachgelagerte Aufgaben wie Klassifizierung, Beschriftung oder Lokalisierung zugeschnitten waren. Überraschenderweise stellen wir fest, dass kontrastives Vision-Language-Training allein, nach der Skalierung unseres sorgfältig abgestimmten Bild-Vorab-Trainingsrezepts und der Verfeinerung mit unserer robusten Video-Daten-Engine, starke, allgemeine Embeddings für all diese nachgelagerten Aufgaben erzeugen kann. Es gibt jedoch einen Haken: Diese Embeddings sind in den Zwischenschichten des Netzwerks verborgen. Um sie hervorzuholen, führen wir zwei Ausrichtungsmethoden ein: Sprachausrichtung für multimodales Sprachmodellieren und räumliche Ausrichtung für dichte Vorhersagen. Zusammen mit dem zentralen kontrastiven Checkpoint erreicht unsere PE-Modellfamilie Spitzenleistungen in einer Vielzahl von Aufgaben, einschließlich Zero-Shot-Bild- und Videoklassifizierung und -retrieval; Dokument-, Bild- und Video-Fragen und -Antworten; sowie räumliche Aufgaben wie Erkennung, Tiefenschätzung und Tracking. Um die weitere Forschung zu fördern, veröffentlichen wir unsere Modelle, Code und einen neuartigen Datensatz synthetisch und menschlich annotierter Videos.

WORLDMEM: Langzeitkonsistente Weltsimulation mit Gedächtnis
WORLDMEM: Long-term Consistent World Simulation with Memory

Apr 16

ByZeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan

Die Simulation von Welten hat aufgrund ihrer Fähigkeit, virtuelle Umgebungen zu modellieren und die Konsequenzen von Handlungen vorherzusagen, zunehmend an Popularität gewonnen. Allerdings führt das begrenzte zeitliche Kontextfenster oft zu Fehlern bei der Aufrechterhaltung langfristiger Konsistenz, insbesondere bei der Bewahrung der 3D-Raumkonsistenz. In dieser Arbeit stellen wir WorldMem vor, ein Framework, das die Szenengenerierung durch eine Speicherbank verbessert, die aus Speichereinheiten besteht, die Speicherframes und Zustände (z.B. Posen und Zeitstempel) speichern. Durch den Einsatz eines Speicher-Aufmerksamkeitsmechanismus, der relevante Informationen aus diesen Speicherframes basierend auf ihren Zuständen effektiv extrahiert, ist unsere Methode in der Lage, zuvor beobachtete Szenen auch bei signifikanten Blickwinkel- oder zeitlichen Abständen präzise zu rekonstruieren. Darüber hinaus ermöglicht die Einbindung von Zeitstempeln in die Zustände, dass unser Framework nicht nur eine statische Welt modelliert, sondern auch deren dynamische Entwicklung über die Zeit erfasst, wodurch sowohl Wahrnehmung als auch Interaktion innerhalb der simulierten Welt ermöglicht werden. Umfangreiche Experimente in virtuellen und realen Szenarien bestätigen die Wirksamkeit unseres Ansatzes.

70% Größe, 100% Genauigkeit: Verlustfreie LLM-Kompression für effiziente GPU-Inferenz mittels dynamischer Float-Länge
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

Apr 15

ByTianyi Zhang, Yang Sui, Shaochen Zhong, Vipin Chaudhary, Xia Hu, Anshumali Shrivastava

Große Sprachmodelle (LLMs) haben in ihrer Größe rapide zugenommen, was erhebliche Herausforderungen für die effiziente Bereitstellung auf ressourcenbeschränkter Hardware mit sich bringt. In diesem Artikel stellen wir Dynamic-Length Float (DFloat11) vor, ein verlustfreies Kompressionsframework, das die Größe von LLMs um 30 % reduziert, während die Ausgaben bitgenau mit dem ursprünglichen Modell übereinstimmen. DFloat11 wird durch die niedrige Entropie in der BFloat16-Gewichtsdarstellung von LLMs motiviert, die erhebliche Ineffizienzen im bestehenden Speicherformat aufzeigt. Durch die Anwendung von Entropiekodierung weist DFloat11 Gewichten dynamische Längenkodierungen basierend auf ihrer Häufigkeit zu und erreicht damit eine nahezu informationsoptimale Kompression ohne Präzisionsverlust. Um eine effiziente Inferenz mit dynamischen Längenkodierungen zu ermöglichen, entwickeln wir einen speziellen GPU-Kernel für schnelle Online-Dekompression. Unser Design umfasst Folgendes: (i) die Zerlegung von speicherintensiven Lookup-Tabellen (LUTs) in kompakte LUTs, die in den GPU-SRAM passen, (ii) einen zweiphasigen Kernel zur Koordination der Lese-/Schreibpositionen von Threads mithilfe von leichtgewichtigen Hilfsvariablen und (iii) eine Dekompression auf Ebene der Transformer-Blöcke, um die Latenz zu minimieren. Experimente mit aktuellen Modellen, darunter Llama-3.1, Qwen-2.5 und Gemma-3, bestätigen unsere Hypothese, dass DFloat11 eine Reduzierung der Modellgröße um etwa 30 % erreicht, während die Ausgaben bitgenau erhalten bleiben. Im Vergleich zu einer potenziellen Alternative, bei der Teile eines unkomprimierten Modells auf die CPU ausgelagert werden, um Speicherbeschränkungen zu erfüllen, erreicht DFloat11 eine 1,9- bis 38,8-fach höhere Durchsatzrate bei der Token-Generierung. Bei einem festen GPU-Speicherbudget ermöglicht DFloat11 5,3- bis 13,17-fach längere Kontextlängen als unkomprimierte Modelle. Bemerkenswerterweise ermöglicht unsere Methode die verlustfreie Inferenz von Llama-3.1-405B, einem 810 GB großen Modell, auf einem einzelnen Knoten mit 8x80GB GPUs. Unser Code und unsere Modelle sind unter https://github.com/LeanModels/DFloat11 verfügbar.

Ein strategisches Koordinationsframework kleiner LLMs erreicht die Leistung großer LLMs in der Datensynthese.
A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

Apr 11

ByXin Gao, Qizhi Pei, Zinan Tang, Yu Li, Honglin Lin, Jiang Wu, Conghui He, Lijun Wu

Während Daten synthese und -destillation vielversprechende Strategien zur Verbesserung kleiner Sprachmodelle sind, stützen sich aktuelle Ansätze stark auf Large Language Models (LLMs), die unter hohen Rechenkosten, Umweltineffizienz und potenziellen Verzerrungen leiden, die von monolithischen Architekturen geerbt werden. Im Gegensatz dazu sind kleinere LLMs zugänglicher und nachhaltiger, aber ihre individuellen Fähigkeiten reichen oft nicht aus, um hochwertige, vielfältige und zuverlässige Daten zu generieren. Inspiriert von kollaborativen menschlichen Prozessen (z. B. Peer-Review) schlagen wir ein Framework vor, GRA, das mehrere kleine LLMs einbezieht, um spezialisierte Rollen über kleine LLMs hinweg zu aggregieren und so iterative Verfeinerung und Qualitätskontrolle zu erreichen, die typischerweise von einem einzelnen großen LLM erzielt werden. In diesem kollaborativen Framework übernehmen mehrere kleine LLMs unterschiedliche Rollen – Generator, Reviewer und Adjudicator –, um eine von Peer-Review inspirierte Daten synthese-Pipeline zu simulieren. Der Generator schlägt initiale Datenproben vor, der Reviewer kritisiert deren Qualität und Vielfalt, und der Adjudicator löst Konflikte, um die Ausgabe zu finalisieren. Indem der Syntheseprozess in spezialisierte Teilaufgaben zerlegt wird, können kollaborative kleine LLMs eine Datenparität mit der Destillation auf Basis großer LLMs erreichen. Durch Experimente über mehrere Benchmarks hinweg zeigen wir, dass die von GRA produzierten Daten die Qualität der Ausgaben eines einzelnen großen LLMs, z. B. Qwen-2.5-72B-Instruct, erreichen oder übertreffen. Unsere Ergebnisse stellen die Notwendigkeit monolithischer großer Modelle für hochwertige Daten synthese in Frage und plädieren stattdessen für eine strategische Koordination kleinerer Agenten. Unsere Datensätze, Modelle und Code sind öffentlich verfügbar unter https://github.com/GX-XinGao/GRA.

ChartQAPro: Ein vielfältigeres und anspruchsvolleres Benchmark für die Beantwortung von Diagrammfragen
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering

Apr 7

ByAhmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty

Diagramme sind allgegenwärtig, da Menschen sie häufig zur Datenanalyse, zur Beantwortung von Fragen und zur Entdeckung entscheidender Erkenntnisse verwenden. Die Durchführung komplexer analytischer Aufgaben mit Diagrammen erfordert jedoch erhebliche Wahrnehmungs- und kognitive Anstrengung. Chart Question Answering (CQA)-Systeme automatisieren diesen Prozess, indem sie Modellen ermöglichen, visuelle Darstellungen von Daten zu interpretieren und damit zu schlussfolgern. Bestehende Benchmarks wie ChartQA weisen jedoch eine mangelnde reale Vielfalt auf und haben kürzlich eine Leistungssättigung bei modernen großen visuell-sprachlichen Modellen (LVLMs) gezeigt. Um diese Einschränkungen zu überwinden, führen wir ChartQAPro ein, einen neuen Benchmark, der 1.341 Diagramme aus 157 verschiedenen Quellen umfasst, die verschiedene Diagrammtypen, einschließlich Infografiken und Dashboards, abdecken, und 1.948 Fragen in verschiedenen Formaten wie Multiple-Choice, Konversations-, hypothetische und unbeantwortbare Fragen enthalten, um die Herausforderungen der realen Welt besser widerzuspiegeln. Unsere Auswertungen mit 21 Modellen zeigen einen erheblichen Leistungsabfall bei LVLMs auf ChartQAPro; beispielsweise erzielt Claude Sonnet 3.5 90,5 % auf ChartQA, aber nur 55,81 % auf ChartQAPro, was die Komplexität der Diagrammargumentation unterstreicht. Wir ergänzen unsere Ergebnisse mit detaillierten Fehleranalysen und Ablationsstudien, die wichtige Herausforderungen und Möglichkeiten für die Weiterentwicklung von LVLMs im Bereich des Diagrammverständnisses und der Diagrammargumentation identifizieren. Wir veröffentlichen ChartQAPro unter https://github.com/vis-nlp/ChartQAPro.

DMM: Entwicklung eines vielseitigen Bildgenerierungsmodells durch distillationsbasierte Modellfusion
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

Apr 16

ByTianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang

Der Erfolg von Text-zu-Bild (T2I)-Generierungsmodellen hat eine Vielzahl von Modell-Checkpoints hervorgebracht, die aus demselben Basismodell auf verschiedenen spezialisierten Datensätzen feinabgestimmt wurden. Diese überwältigende Produktion spezialisierter Modelle führt zu neuen Herausforderungen in Bezug auf hohe Parameterredundanz und enorme Speicherkosten, was die Entwicklung effektiver Methoden zur Konsolidierung und Vereinigung der Fähigkeiten verschiedener leistungsstarker Modelle in einem einzigen Modell notwendig macht. Eine gängige Praxis bei der Modellzusammenführung ist die Verwendung statischer linearer Interpolation im Parameterraum, um das Ziel der Stilmischung zu erreichen. Dabei werden jedoch die Merkmale der T2I-Generierungsaufgabe vernachlässigt, bei der zahlreiche unterschiedliche Modelle verschiedene Stile abdecken, was zu Inkompatibilität und Verwirrung im zusammengeführten Modell führen kann. Um dieses Problem zu lösen, führen wir eine stilanfragbare Bildgenerierungspipeline ein, die präzise Bilder in beliebigen Stilen unter der Kontrolle von Stilvektoren erzeugen kann. Basierend auf diesem Design schlagen wir das auf Score-Distillation basierende Modellzusammenführungsparadigma (DMM) vor, das mehrere Modelle in ein einziges vielseitiges T2I-Modell komprimiert. Darüber hinaus überdenken und reformulieren wir die Aufgabe der Modellzusammenführung im Kontext der T2I-Generierung, indem wir neue Zusammenführungsziele und Bewertungsprotokolle vorstellen. Unsere Experimente zeigen, dass DMM das Wissen mehrerer Lehrermodelle kompakt reorganisieren und eine kontrollierbare Generierung in beliebigen Stilen erreichen kann.

VistaDPO: Video-Hierarchische Raum-Zeit-Direktpräferenzoptimierung für große Videomodelle
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Apr 17

ByHaojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei

Große Videomodelle (Large Video Models, LVMs), die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, haben vielversprechende Ergebnisse in der Videoverständnis gezeigt, leiden jedoch häufig unter Fehlausrichtungen mit der menschlichen Intuition und Problemen wie Video-Halluzinationen. Um diese Herausforderungen zu bewältigen, stellen wir VistaDPO vor, ein neuartiges Framework für die hierarchische räumlich-zeitliche Direkte Präferenzoptimierung (Video Hierarchical Spatial-Temporal Direct Preference Optimization). VistaDPO verbessert die Text-Video-Präferenzausrichtung auf drei hierarchischen Ebenen: i) Instanzebene, die den Gesamtinhalt des Videos mit den Antworten in Einklang bringt; ii) zeitliche Ebene, die die zeitliche Semantik des Videos mit Ereignisbeschreibungen abstimmt; und iii) Wahrnehmungsebene, die räumliche Objekte mit Sprach-Tokens ausrichtet. Angesichts des Mangels an Datensätzen für die fein abgestimmte Video-Sprach-Präferenzausrichtung haben wir VistaDPO-7k erstellt, einen Datensatz mit 7.2K Frage-Antwort-Paaren, die mit ausgewählten und abgelehnten Antworten sowie räumlich-zeitlichen Verankerungsinformationen wie Zeitstempeln, Keyframes und Begrenzungsrahmen annotiert sind. Umfangreiche Experimente auf Benchmarks wie Video-Halluzination, Video-Fragenbeantwortung (Video QA) und Beschreibungsleistungsaufgaben (Captioning) zeigen, dass VistaDPO die Leistung bestehender LVMs signifikant verbessert und effektiv Fehlausrichtungen zwischen Video und Sprache sowie Halluzinationen reduziert. Der Code und die Daten sind unter https://github.com/HaroldChen19/VistaDPO verfügbar.

NoisyRollout: Verstärkung des visuellen Denkens durch Datenanreicherung
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

Apr 17

ByXiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh

Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) haben die Fähigkeiten von Vision-Language-Modellen (VLMs) zur logischen Schlussfolgerung gestärkt. Die Verbesserung der Policy-Exploration, um die Rechenleistung zur Testzeit effektiver zu skalieren, bleibt jedoch in VLMs weitgehend unerforscht. Zudem kämpfen VLMs weiterhin mit unvollkommener visueller Wahrnehmung, was sich wiederum auf den nachfolgenden Schlussfolgerungsprozess auswirkt. Vor diesem Hintergrund schlagen wir NoisyRollout vor, einen einfachen, aber effektiven RL-Ansatz, der Trajektorien sowohl aus sauberen als auch aus mäßig verzerrten Bildern mischt, um gezielte Diversität in der visuellen Wahrnehmung und den daraus resultierenden Schlussfolgerungsmustern einzuführen. Ohne zusätzliche Trainingskosten verbessert NoisyRollout die Explorationsfähigkeiten von VLMs durch die Einführung einer visuell orientierten induktiven Verzerrung. Darüber hinaus verwendet NoisyRollout einen Rauschabklingplan, der die Stärke der Verzerrung während des Trainings schrittweise reduziert, um frühzeitig von verrauschten Signalen zu profitieren und gleichzeitig die Trainingsstabilität und Skalierbarkeit in späteren Phasen zu gewährleisten. Mit nur 2.1K Trainingsdaten erreicht NoisyRollout state-of-the-art Leistungen unter den Open-Source-RL-optimierten Modellen in 5 Out-of-Domain-Benchmarks, die sowohl logische Schlussfolgerungen als auch Wahrnehmungsaufgaben umfassen, während es eine vergleichbare oder sogar bessere In-Domain-Leistung beibehält.

PerceptionLM: Offene Daten und Modelle für detailliertes visuelles Verständnis
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Apr 17

ByJang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

Vision-Language-Modelle sind ein integraler Bestandteil der Computer-Vision-Forschung, doch viele leistungsstarke Modelle bleiben Closed-Source, wodurch ihre Daten, ihr Design und ihre Trainingsmethoden im Verborgenen bleiben. Die Forschungsgemeinschaft hat darauf reagiert, indem sie Distillation von Black-Box-Modellen zur Beschriftung von Trainingsdaten verwendet hat, was starke Benchmark-Ergebnisse erzielt, jedoch auf Kosten eines messbaren wissenschaftlichen Fortschritts. Ohne die Details des Lehrer-Modells und seiner Datenquellen zu kennen, bleibt der wissenschaftliche Fortschritt jedoch schwer zu messen. In diesem Artikel untersuchen wir den Aufbau eines Perception Language Model (PLM) in einem vollständig offenen und reproduzierbaren Framework für transparente Forschung im Bereich der Bild- und Videoanalyse. Wir analysieren Standard-Trainingspipeline ohne Distillation von proprietären Modellen und erforschen groß angelegte synthetische Daten, um kritische Datenlücken zu identifizieren, insbesondere bei der detaillierten Videoanalyse. Um diese Lücken zu schließen, veröffentlichen wir 2,8 Millionen menschlich beschriftete Instanzen von fein abgestimmten Video-Frage-Antwort-Paaren und räumlich-zeitlich verankerten Video-Beschreibungen. Zusätzlich führen wir PLM-VideoBench ein, eine Suite zur Bewertung anspruchsvoller Videoanalyse-Aufgaben, die sich auf die Fähigkeit konzentriert, das „Was“, „Wo“, „Wann“ und „Wie“ eines Videos zu verstehen. Wir machen unsere Arbeit vollständig reproduzierbar, indem wir Daten, Trainingsmethoden, Code und Modelle bereitstellen.

InstantCharacter: Personalisierung beliebiger Charaktere mit einem skalierbaren Diffusions-Transformer-Framework
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

Apr 16

ByJiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu

Aktuelle lernbasierte Ansätze zur Subjektanpassung, die hauptsächlich auf U-Net-Architekturen basieren, leiden unter begrenzter Generalisierungsfähigkeit und beeinträchtigter Bildqualität. Gleichzeitig erfordern optimierungsbasierte Methoden eine subjektspezifische Feinabstimmung, was unweigerlich die textuelle Steuerbarkeit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir InstantCharacter vor, ein skalierbares Framework für die Charakteranpassung, das auf einem Foundation-Diffusion-Transformer basiert. InstantCharacter weist drei grundlegende Vorteile auf: Erstens erreicht es eine Open-Domain-Personalisierung über diverse Charaktererscheinungen, Posen und Stile hinweg, während es hochwertige Ergebnisse liefert. Zweitens führt das Framework einen skalierbaren Adapter mit gestapelten Transformer-Encodern ein, der effektiv Open-Domain-Charaktermerkmale verarbeitet und nahtlos mit dem latenten Raum moderner Diffusion-Transformer interagiert. Drittens haben wir zur effektiven Schulung des Frameworks einen groß angelegten Charakterdatensatz mit 10-Millionen-Level-Proben erstellt. Der Datensatz ist systematisch in gepaarte (Multi-View-Charakter) und ungepaarte (Text-Bild-Kombinationen) Teilmengen organisiert. Diese duale Datenstruktur ermöglicht die gleichzeitige Optimierung von Identitätskonsistenz und textueller Bearbeitbarkeit durch unterschiedliche Lernpfade. Qualitative Experimente demonstrieren die fortgeschrittenen Fähigkeiten von InstantCharacter bei der Erzeugung von hochwertigen, textgesteuerten und charakterkonsistenten Bildern, wodurch ein neuer Maßstab für die charaktergesteuerte Bildgenerierung gesetzt wird. Unser Quellcode ist verfügbar unter https://github.com/Tencent/InstantCharacter.

Sleep-time Compute: Jenseits der Skalierung von Inferenzen zur Testzeit
Sleep-time Compute: Beyond Inference Scaling at Test-time

Apr 17

ByKevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez

Die Skalierung der Rechenleistung zur Testzeit hat sich als Schlüsselelement erwiesen, um großen Sprachmodellen (LLMs) die Lösung schwieriger Probleme zu ermöglichen, geht jedoch mit hoher Latenz und hohen Inferenzkosten einher. Wir führen die Rechenleistung zur Schlafzeit ein, die es Modellen ermöglicht, offline über Kontexte „nachzudenken“, bevor Abfragen gestellt werden: Indem wir vorhersagen, welche Abfragen Nutzer stellen könnten, und nützliche Größen vorab berechnen, können wir den Rechenbedarf zur Testzeit erheblich reduzieren. Um die Wirksamkeit unserer Methode zu demonstrieren, erstellen wir modifizierte Versionen von zwei Aufgaben zur logischen Schlussfolgerung – Stateful GSM-Symbolic und Stateful AIME. Wir stellen fest, dass die Rechenleistung zur Schlafzeit den benötigten Rechenaufwand zur Testzeit, um die gleiche Genauigkeit zu erreichen, um das ~5-fache bei Stateful GSM-Symbolic und Stateful AIME reduzieren kann und dass wir durch die Skalierung der Rechenleistung zur Schlafzeit die Genauigkeit bei Stateful GSM-Symbolic um bis zu 13 % und bei Stateful AIME um bis zu 18 % weiter steigern können. Darüber hinaus führen wir Multi-Query GSM-Symbolic ein, das GSM-Symbolic um mehrere verwandte Abfragen pro Kontext erweitert. Indem wir die Rechenleistung zur Schlafzeit über verwandte Abfragen zum gleichen Kontext mit Multi-Query GSM-Symbolic amortisieren, können wir die durchschnittlichen Kosten pro Abfrage um das 2,5-fache senken. Anschließend führen wir zusätzliche Analysen durch, um zu verstehen, wann die Rechenleistung zur Schlafzeit am effektivsten ist, und stellen fest, dass die Vorhersagbarkeit der Nutzerabfrage gut mit der Wirksamkeit der Rechenleistung zur Schlafzeit korreliert. Abschließend führen wir eine Fallstudie durch, in der wir die Rechenleistung zur Schlafzeit auf eine realistische agentenbasierte SWE-Aufgabe anwenden.

Die Untersuchung von Expertenfehlern verbessert das Tuning von LLM-Agenten.
Exploring Expert Failures Improves LLM Agent Tuning

Apr 17

ByLi-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou

Große Sprachmodelle (LLMs) haben ein enormes Potenzial als Agenten gezeigt und glänzen bei Aufgaben, die mehrere Runden von Schlussfolgerungen und Interaktionen erfordern. Rejection Sampling Fine-Tuning (RFT) hat sich als effektive Methode zur Feinabstimmung von LLMs als Agenten erwiesen: Es imitiert zunächst erfolgreiche Trajektorien, die von Experten generiert wurden, und verbessert die agentischen Fähigkeiten weiter durch iterative Feinabstimmung anhand erfolgreicher, selbstgenerierter Trajektorien. Da der Experte (z. B. GPT-4) jedoch hauptsächlich bei einfacheren Teilaufgaben erfolgreich ist und RFT inhärent einfachere Szenarien bevorzugt, bleiben viele komplexe Teilaufgaben ungelöst und dauerhaft außerhalb der Verteilung (OOD). Bei der Untersuchung dieser anspruchsvollen Teilaufgaben stellten wir fest, dass zuvor gescheiterte Experten-Trajektorien oft wertvolle Hinweise liefern können, z. B. Pläne und Schlüsselaktionen, die die Effizienz der Agenten-Exploration und den Erwerb kritischer Fähigkeiten erheblich verbessern können. Motiviert durch diese Beobachtungen schlagen wir Exploring Expert Failures (EEF) vor, das nützliche Aktionen aus gescheiterten Experten-Trajektorien identifiziert und in den Trainingsdatensatz integriert. Potenziell schädliche Aktionen werden sorgfältig ausgeschlossen, um eine Kontamination des Modelllernprozesses zu verhindern. Durch die Nutzung der nützlichen Aktionen in Expertenfehlern löst EEF erfolgreich einige zuvor unlösbare Teilaufgaben und verbessert die Leistung der Agenten-Feinabstimmung. Bemerkenswerterweise erreichte unser Ansatz eine Gewinnrate von 62 % in WebShop, übertraf damit RFT (53,6 %) und GPT-4 (35,6 %) und setzte nach unserem Wissen einen neuen State-of-the-art als erste Methode, die einen Score von 0,81 in WebShop überschritt und 81 in SciWorld übertraf.

CCMNet: Nutzung kalibrierter Farbkorrekturmatrizen für die farbkonstante Bildverarbeitung über verschiedene Kameras hinweg
CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy

Apr 10

ByDongyoung Kim, Mahmoud Afifi, Dongyun Kim, Michael S. Brown, Seon Joo Kim

Die rechnerische Farbkonstanz, auch Weißabgleich genannt, ist ein zentrales Modul im Bildsignalprozessor (ISP) einer Kamera, das Farbstiche durch die Beleuchtung der Szene korrigiert. Da dieser Vorgang im kameraspezifischen Rohfarbraum stattfindet, müssen Weißabgleichalgorithmen an verschiedene Kameras angepasst werden. Dieses Papier stellt eine lernbasierte Methode für die kameraübergreifende Farbkonstanz vor, die sich auf neue Kameras verallgemeinern lässt, ohne neu trainiert zu werden. Unsere Methode nutzt vorkalibrierte Farbkorrekturmatrizen (CCMs), die in ISPs verfügbar sind und den Rohfarbraum der Kamera in einen Standardraum (z. B. CIE XYZ) abbilden. Unsere Methode verwendet diese CCMs, um vordefinierte Beleuchtungsfarben (z. B. entlang der Planck-Kurve) in den Rohfarbraum der Testkamera zu transformieren. Die abgebildeten Lichtquellen werden in eine kompakte Kamera-Fingerprint-Einbettung (CFE) kodiert, die es dem Netzwerk ermöglicht, sich auf unbekannte Kameras anzupassen. Um Überanpassung aufgrund der begrenzten Anzahl von Kameras und CCMs während des Trainings zu verhindern, führen wir eine Datenaugmentierungstechnik ein, die zwischen Kameras und ihren CCMs interpoliert. Experimentelle Ergebnisse über mehrere Datensätze und Backbones hinweg zeigen, dass unsere Methode den Stand der Technik in der kameraübergreifenden Farbkonstanz erreicht, dabei leichtgewichtig bleibt und sich ausschließlich auf Daten stützt, die in Kamera-ISPs leicht verfügbar sind.

FocusedAD: Charakterzentrierte Audiodeskription für Filme
FocusedAD: Character-centric Movie Audio Description

Apr 16

ByXiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu

Movie Audio Description (AD) zielt darauf ab, visuelle Inhalte in dialogfreien Abschnitten zu beschreiben und kommt insbesondere blinden und sehbehinderten (BVI) Zuschauern zugute. Im Vergleich zur allgemeinen Videountertitelung erfordert AD eine handlungsrelevante Erzählung mit expliziten Charakternamen, was einzigartige Herausforderungen im Verständnis von Filmen darstellt. Um aktive Hauptcharaktere zu identifizieren und sich auf handlungsrelevante Regionen zu konzentrieren, schlagen wir FocusedAD vor, ein neuartiges Framework, das charakterzentrierte Film-Audio-Deskriptionen liefert. Es umfasst: (i) ein Character Perception Module (CPM) zur Verfolgung von Charakterregionen und deren Verknüpfung mit Namen; (ii) ein Dynamic Prior Module (DPM), das kontextuelle Hinweise aus vorherigen ADs und Untertiteln über lernbare Soft Prompts einfügt; und (iii) ein Focused Caption Module (FCM), das Erzählungen mit handlungsrelevanten Details und benannten Charakteren anreichert. Um die Einschränkungen bei der Charakteridentifikation zu überwinden, führen wir außerdem eine automatisierte Pipeline zur Erstellung von Charakter-Abfragebanken ein. FocusedAD erzielt state-of-the-art Leistungen auf mehreren Benchmarks, einschließlich starker Zero-Shot-Ergebnisse auf MAD-eval-Named und unserem neu vorgeschlagenen Cinepile-AD-Datensatz. Code und Daten werden unter https://github.com/Thorin215/FocusedAD veröffentlicht.

Complex-Edit: CoT-ähnliche Instruktionsgenerierung für einen Komplexitätssteuerbaren Bildbearbeitungs-Benchmark
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

Apr 17

BySiwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie

Wir stellen Complex-Edit vor, einen umfassenden Benchmark, der entwickelt wurde, um instruktionsbasierte Bildbearbeitungsmodelle systematisch über Anweisungen unterschiedlicher Komplexität hinweg zu evaluieren. Um diesen Benchmark zu erstellen, nutzen wir GPT-4o, um automatisch eine vielfältige Sammlung von Bearbeitungsanweisungen in großem Maßstab zu generieren. Unser Ansatz folgt einer strukturierten „Chain-of-Edit“-Pipeline: Zuerst generieren wir individuelle atomare Bearbeitungsaufgaben unabhängig voneinander und integrieren sie dann, um zusammenhängende, komplexe Anweisungen zu bilden. Zusätzlich führen wir eine Reihe von Metriken ein, um verschiedene Aspekte der Bearbeitungsleistung zu bewerten, sowie eine VLM-basierte Auto-Evaluationspipeline, die groß angelegte Bewertungen unterstützt. Unser Benchmark liefert mehrere bemerkenswerte Erkenntnisse: 1) Open-Source-Modelle schneiden im Vergleich zu proprietären, geschlossenen Modellen deutlich schlechter ab, wobei die Leistungslücke mit zunehmender Komplexität der Anweisungen größer wird; 2) Erhöhte Anweisungskomplexität beeinträchtigt vor allem die Fähigkeit der Modelle, Schlüsselelemente der Eingabebilder zu erhalten und die ästhetische Gesamtqualität zu bewahren; 3) Die Zerlegung einer komplexen Anweisung in eine Sequenz atomarer Schritte, die schrittweise ausgeführt werden, verschlechtert die Leistung über mehrere Metriken hinweg erheblich; 4) Eine einfache Best-of-N-Auswahlstrategie verbessert die Ergebnisse sowohl für die direkte Bearbeitung als auch für den schrittweisen sequenziellen Ansatz; und 5) Wir beobachten einen „Fluch synthetischer Daten“: Wenn synthetische Daten in das Modelltraining einbezogen werden, neigen die bearbeiteten Bilder solcher Modelle dazu, mit steigender Komplexität der Bearbeitungsanweisungen zunehmend synthetisch zu wirken – ein Phänomen, das interessanterweise auch in den neuesten GPT-4o-Ausgaben auftritt.

Retrieval-Augmentierte Generierung mit widersprüchlichen Beweisen
Retrieval-Augmented Generation with Conflicting Evidence

Apr 17

ByHan Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal

Große Sprachmodell-Agenten (LLM-Agenten) setzen zunehmend retrieval-augmentierte Generierung (RAG) ein, um die Faktentreue ihrer Antworten zu verbessern. In der Praxis müssen diese Systeme jedoch oft mit mehrdeutigen Benutzeranfragen und potenziell widersprüchlichen Informationen aus mehreren Quellen umgehen, während sie gleichzeitig ungenaue Informationen aus verrauschten oder irrelevanten Dokumenten unterdrücken müssen. Bisherige Arbeiten haben diese Herausforderungen in der Regel isoliert betrachtet und jeweils nur einen Aspekt behandelt, wie z. B. den Umgang mit Mehrdeutigkeit oder die Robustheit gegenüber Rauschen und Fehlinformationen. Wir betrachten stattdessen mehrere Faktoren gleichzeitig und schlagen (i) RAMDocs (Retrieval mit Mehrdeutigkeit und Fehlinformationen in Dokumenten) vor, einen neuen Datensatz, der komplexe und realistische Szenarien für widersprüchliche Beweise zu einer Benutzeranfrage simuliert, einschließlich Mehrdeutigkeit, Fehlinformationen und Rauschen; und (ii) MADAM-RAG, einen Multi-Agenten-Ansatz, bei dem LLM-Agenten in mehreren Runden über die Vorzüge einer Antwort diskutieren, sodass ein Aggregator Antworten zu eindeutigen Entitäten zusammenfassen kann, während Fehlinformationen und Rauschen verworfen werden, wodurch verschiedene Konfliktquellen gemeinsam behandelt werden. Wir demonstrieren die Wirksamkeit von MADAM-RAG sowohl mit geschlossenen als auch mit Open-Source-Modellen auf AmbigDocs – das die Darstellung aller gültigen Antworten auf mehrdeutige Anfragen erfordert – und verbessern starke RAG-Baselines um bis zu 11,40 %. Auf FaithEval – das die Unterdrückung von Fehlinformationen erfordert – verbessern wir mit Llama3.3-70B-Instruct um bis zu 15,80 % (absolut). Darüber hinaus stellen wir fest, dass RAMDocs eine Herausforderung für bestehende RAG-Baselines darstellt (Llama3.3-70B-Instruct erreicht nur einen exakten Übereinstimmungswert von 32,60). Während MADAM-RAG beginnt, diese widersprüchlichen Faktoren zu adressieren, zeigt unsere Analyse, dass insbesondere bei zunehmendem Ungleichgewicht in unterstützenden Beweisen und Fehlinformationen eine erhebliche Lücke bleibt.

MetaSynth: Meta-Prompting-gesteuerte agentische Gerüste für die Erzeugung diverser synthetischer Daten
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

Apr 17

ByHaris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood

Kürzlich entwickelte kleinere Sprachmodelle wie Phi-3.5 und Phi-4 basieren auf synthetischen Daten, die mithilfe größerer Sprachmodelle generiert wurden. Es bleiben jedoch Fragen offen, wie synthetische Daten für andere Anwendungsfälle genutzt werden können, beispielsweise zur Anpassung von LLMs (Large Language Models) an spezifische Domänen. Eine wesentliche Einschränkung synthetischer Daten ist deren geringe Diversität, was sich negativ auf deren Anwendbarkeit zur Verbesserung anderer Modelle auswirkt. Um dies zu adressieren, schlagen wir MetaSynth vor, eine Methode zur Generierung synthetischer Daten, die die Diversität durch Meta-Prompting erhöht, bei dem ein Sprachmodell mehrere „Experten“-LLM-Agenten orchestriert, um gemeinsam Daten zu erzeugen. Mit nur 25 Millionen Token synthetischer Daten, die mit MetaSynth generiert wurden, konnten wir ein gut trainiertes LLM (Mistral-7B-v0.3) erfolgreich an zwei spezialisierte Domänen – Finanzen und Biomedizin – anpassen, ohne die Fähigkeiten des resultierenden Modells in allgemeinen Aufgaben zu beeinträchtigen. Zusätzlich bewerten wir die Diversität unserer synthetischen Daten anhand von sieben automatisierten Metriken und stellen fest, dass sie der Diversität von LLM-Vortrainingskorpora nahekommt. Die kontinuierliche Vortrainierung von Mistral-7B-v0.3 mit MetaSynth übertrifft das Basismodell deutlich und zeigt Verbesserungen von bis zu 4,08 % im Bereich Finanzen und 13,75 % in der Biomedizin. Dasselbe Modell zeigt eine verschlechterte Leistung, wenn es mit Daten trainiert wird, die mithilfe eines Template-Prompts generiert wurden, selbst wenn das Template frühere Generationen und variierende In-Context-Beispiele realer Daten enthält. Unsere Ergebnisse deuten darauf hin, dass einige Millionen Token diverser synthetischer Daten, ohne Vermischung mit realen Daten, ausreichen, um eine effektive Domänenanpassung mit MetaSynth zu erreichen.

Set You Straight: Automatische Steuerung von Denoising-Pfaden zur Umgehung unerwünschter Konzepte
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts

Apr 17

ByLeyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong

Die ethische Bereitstellung von Text-zu-Bild-Modellen erfordert effektive Techniken, um die Erzeugung schädlicher oder unangemessener Inhalte zu verhindern. Während Konzeptlöschungsmethoden eine vielversprechende Lösung bieten, weisen bestehende Feinabstimmungsansätze bemerkenswerte Einschränkungen auf. Ankerfreie Methoden riskieren die Unterbrechung von Sampling-Trajektorien, was zu visuellen Artefakten führt, während ankerbasierte Methoden auf der heuristischen Auswahl von Ankerkonzepten beruhen. Um diese Mängel zu überwinden, führen wir ein Feinabstimmungsframework namens ANT ein, das Automatisch deNoising-Trajektorien steuert, um unerwünschte Konzepte zu vermeiden. ANT basiert auf einer zentralen Erkenntnis: Die Umkehrung der Bedingungsrichtung des classifier-free guidance während der mittleren bis späten Denoising-Phasen ermöglicht eine präzise Inhaltsmodifikation, ohne die strukturelle Integrität in frühen Phasen zu opfern. Dies inspiriert ein trajektorienbewusstes Ziel, das die Integrität des Score-Funktionsfelds in frühen Phasen bewahrt, das Proben in Richtung der natürlichen Bildmannigfaltigkeit lenkt, ohne auf heuristische Ankerkonzeptauswahl angewiesen zu sein. Für die Löschung einzelner Konzepte schlagen wir eine augmentationsverstärkte Gewichtssalienzkarte vor, um die kritischen Parameter, die am stärksten zum unerwünschten Konzept beitragen, präzise zu identifizieren und so eine gründlichere und effizientere Löschung zu ermöglichen. Für die Löschung mehrerer Konzepte bietet unsere Zielfunktion eine vielseitige Plug-and-Play-Lösung, die die Leistung erheblich steigert. Umfangreiche Experimente zeigen, dass ANT in der Löschung einzelner und mehrerer Konzepte state-of-the-art Ergebnisse erzielt und hochwertige, sichere Ausgaben liefert, ohne die generative Treue zu beeinträchtigen. Der Code ist verfügbar unter https://github.com/lileyang1210/ANT.

Lernen von okklusionsrobusten Vision-Transformern für Echtzeit-UAV-Tracking
Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

Apr 12

ByYou Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li

Single-Stream-Architekturen, die auf Vision Transformer (ViT)-Backbones basieren, zeigen in letzter Zeit großes Potenzial für die Echtzeitverfolgung von UAVs (unbemannten Luftfahrzeugen). Häufige Verdeckungen durch Hindernisse wie Gebäude und Bäume offenbaren jedoch einen wesentlichen Nachteil: Diese Modelle verfügen oft nicht über effektive Strategien, um mit Verdeckungen umzugehen. Neue Methoden sind erforderlich, um die Widerstandsfähigkeit gegen Verdeckungen von Single-Stream-ViT-Modellen in der Luftverfolgung zu verbessern. In dieser Arbeit schlagen wir vor, verdeckungsrobuste Repräsentationen (Occlusion-Robust Representations, ORR) basierend auf ViTs für die UAV-Verfolgung zu erlernen, indem eine Invarianz der Merkmalsrepräsentation eines Ziels gegenüber zufälligen Maskierungsoperationen erzwungen wird, die durch einen räumlichen Cox-Prozess modelliert werden. Diese zufällige Maskierung simuliert hoffentlich Zielverdeckungen annähernd, wodurch wir in der Lage sind, ViTs zu erlernen, die robust gegenüber Zielverdeckungen für die UAV-Verfolgung sind. Dieser Rahmen wird als ORTrack bezeichnet. Zusätzlich schlagen wir, um Echtzeitanwendungen zu ermöglichen, eine adaptive, merkmalsbasierte Wissensdistillation (Adaptive Feature-Based Knowledge Distillation, AFKD) vor, um einen kompakteren Tracker zu erstellen, der das Verhalten des Lehrermodells ORTrack entsprechend der Schwierigkeit der Aufgabe adaptiv nachahmt. Dieses Schülermodell, genannt ORTrack-D, behält einen Großteil der Leistung von ORTrack bei und bietet gleichzeitig eine höhere Effizienz. Umfangreiche Experimente auf mehreren Benchmarks validieren die Wirksamkeit unserer Methode und demonstrieren ihre state-of-the-art Leistung. Der Code ist unter https://github.com/wuyou3474/ORTrack verfügbar.