HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

13 papers found

DINOv3
DINOv3

Aug 13

ByOriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

274

Self-supervised Learning verspricht, den Bedarf an manueller Datenannotation zu eliminieren und ermöglicht es Modellen, nahtlos auf massive Datensätze und größere Architekturen zu skalieren. Da diese Trainingsmethode nicht auf spezifische Aufgaben oder Domänen zugeschnitten ist, hat sie das Potenzial, visuelle Repräsentationen aus diversen Quellen zu lernen – von natürlichen bis hin zu Luftbildern – und dies mit einem einzigen Algorithmus. Dieser technische Bericht stellt DINOv3 vor, einen bedeutenden Meilenstein auf dem Weg zur Verwirklichung dieser Vision, der durch einfache, aber effektive Strategien erreicht wird. Zunächst nutzen wir die Vorteile der Skalierung von Datensatz- und Modellgröße durch sorgfältige Datenvorbereitung, -gestaltung und -optimierung. Zweitens führen wir eine neue Methode namens Gram-Ankerung ein, die das bekannte, aber bisher ungelöste Problem der Verschlechterung dichter Feature-Maps während langer Trainingszeiträume effektiv adressiert. Schließlich wenden wir post-hoc-Strategien an, die die Flexibilität unserer Modelle in Bezug auf Auflösung, Modellgröße und Textausrichtung weiter verbessern. Als Ergebnis präsentieren wir ein vielseitiges Vision-Foundation-Modell, das den spezialisierten State-of-the-Art in einer breiten Palette von Anwendungen ohne Feinabstimmung übertrifft. DINOv3 erzeugt hochwertige dichte Features, die herausragende Leistungen bei verschiedenen Vision-Aufgaben erzielen und damit frühere selbst- und schwach überwachte Foundation-Modelle deutlich übertreffen. Wir stellen auch die DINOv3-Suite von Vision-Modellen zur Verfügung, die darauf abzielt, den State-of-the-Art in einem breiten Spektrum von Aufgaben und Daten voranzutreiben, indem sie skalierbare Lösungen für diverse Ressourcenbeschränkungen und Einsatzszenarien bietet.

SSRL: Selbstsuchende Verstärkungslernverfahren
SSRL: Self-Search Reinforcement Learning

Aug 14

ByYuchen Fan, Kaiyan Zhang, Heng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou

Wir untersuchen das Potenzial großer Sprachmodelle (LLMs), als effiziente Simulatoren für agentenbasierte Suchaufgaben im Reinforcement Learning (RL) zu dienen und dadurch die Abhängigkeit von kostspieligen Interaktionen mit externen Suchmaschinen zu verringern. Zu diesem Zweck quantifizieren wir zunächst die intrinsische Suchfähigkeit von LLMs durch strukturierte Prompting und wiederholtes Sampling, was wir als Self-Search bezeichnen. Unsere Ergebnisse zeigen, dass LLMs ein starkes Skalierungsverhalten in Bezug auf das Inferenzbudget aufweisen und hohe Pass@k-Werte auf Frage-Antwort-Benchmarks erreichen, einschließlich der anspruchsvollen BrowseComp-Aufgabe. Aufbauend auf diesen Beobachtungen führen wir Self-Search RL (SSRL) ein, das die Self-Search-Fähigkeit von LLMs durch formatbasierte und regelbasierte Belohnungen verbessert. SSRL ermöglicht es Modellen, ihre Wissensnutzung intern iterativ zu verfeinern, ohne auf externe Tools zugreifen zu müssen. Empirische Auswertungen zeigen, dass mit SSRL trainierte Policy-Modelle eine kosteneffiziente und stabile Umgebung für suchgetriebenes RL-Training bieten, die Abhängigkeit von externen Suchmaschinen verringern und einen robusten Sim-to-Real-Transfer erleichtern. Wir ziehen folgende Schlussfolgerungen: 1) LLMs verfügen über Weltwissen, das effektiv abgerufen werden kann, um hohe Leistung zu erzielen; 2) SSRL zeigt das Potenzial, internes Wissen zu nutzen, um Halluzinationen zu reduzieren; 3) Mit SSRL trainierte Modelle integrieren sich nahtlos mit externen Suchmaschinen, ohne zusätzlichen Aufwand. Unsere Ergebnisse unterstreichen das Potenzial von LLMs, ein skalierbareres Training von RL-Agenten zu unterstützen.

Thyme: Denken über Bilder hinaus
Thyme: Think Beyond Images

Aug 15

ByYi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou

Nach der Einführung des Konzepts „Denken mit Bildern“ durch OpenAI haben aktuelle Bestrebungen untersucht, die Nutzung visueller Informationen im Denkprozess zu stimulieren, um die Modellleistung bei Wahrnehmungs- und Denkaufgaben zu verbessern. Nach unserem Kenntnisstand bietet jedoch derzeit keine Open-Source-Arbeit einen Funktionsumfang, der so umfangreich ist wie proprietäre Modelle (O3), die diverse Bildmanipulationen durchführen und gleichzeitig logische Denkfähigkeiten durch Code erweitern können. In diesem Papier unternehmen wir einen ersten Versuch in diese Richtung, indem wir Thyme (Think Beyond Images) vorstellen, ein neuartiges Paradigma, das MLLMs ermöglicht, bestehende „Denken mit Bildern“-Ansätze zu übertreffen, indem es autonom diverse Bildverarbeitungs- und Berechnungsoperationen über ausführbaren Code generiert und ausführt. Dieser Ansatz ermöglicht nicht nur eine reichhaltige, spontane Bildbearbeitung (z. B. Zuschneiden, Drehen, Kontrastverbesserung), sondern auch mathematische Berechnungen, während gleichzeitig eine hohe Autonomie bei der Entscheidung, wann und wie diese Operationen anzuwenden sind, erhalten bleibt. Wir aktivieren diese Fähigkeit durch eine zweistufige Trainingsstrategie: ein anfängliches SFT auf einem kuratierten Datensatz von 500.000 Proben, um die Codegenerierung zu lehren, gefolgt von einer RL-Phase zur Verfeinerung der Entscheidungsfindung. Für die RL-Phase sammeln und entwerfen wir manuell hochauflösende Frage-Antwort-Paare, um den Lernschwierigkeitsgrad zu erhöhen, und wir schlagen GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling) vor, einen Algorithmus, der unterschiedliche Temperaturen auf Text- und Codegenerierung anwendet, um die Denkexploration mit der Präzision der Codeausführung auszugleichen. Wir führen umfangreiche experimentelle Analysen und Ablationsstudien durch. Umfassende Bewertungen auf fast 20 Benchmarks zeigen, dass Thyme signifikante und konsistente Leistungssteigerungen erzielt, insbesondere bei anspruchsvollen hochauflösenden Wahrnehmungs- und komplexen Denkaufgaben.

BeyondWeb: Erkenntnisse aus der Skalierung synthetischer Daten für das Pretraining auf Billionen-Maßstab
BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

Aug 14

ByPratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

Jüngste Fortschritte im Vortraining großer Sprachmodelle (LLMs) haben gezeigt, dass die bloße Skalierung der Datenmenge schließlich zu abnehmenden Erträgen führt und an eine Datenwand stößt. Als Reaktion darauf hat sich die Verwendung synthetischer Daten für das Vortraining als vielversprechendes Paradigma erwiesen, um die Grenzen der Leistungsfähigkeit zu erweitern. Dennoch sind die Faktoren, die die Qualität synthetischer Daten beeinflussen, noch weitgehend unverstanden. In dieser Arbeit stellen wir BeyondWeb vor, ein Framework zur Erzeugung synthetischer Daten, das hochwertige synthetische Daten für das Vortraining produziert. BeyondWeb erweitert die Fähigkeiten traditioneller Web-Scale-Datensätze erheblich und übertrifft state-of-the-art synthetische Vortrainingsdatensätze wie Cosmopedia und die hochwertige synthetische Teilmenge von Nemotron-CC (Nemotron-Synth) um bis zu 5,1 Prozentpunkte (pp) bzw. 2,6 pp, gemittelt über eine Reihe von 14 Benchmark-Evaluierungen. Es ermöglicht bis zu 7,7-mal schnelleres Training als offene Webdaten und 2,7-mal schneller als Nemotron-Synth. Bemerkenswerterweise übertrifft ein 3B-Modell, das für 180B Tokens auf BeyondWeb trainiert wurde, ein 8B-Modell, das für das gleiche Token-Budget auf Cosmopedia trainiert wurde. Wir präsentieren auch mehrere Erkenntnisse aus BeyondWeb zu synthetischen Daten für das Vortraining: was ihre Vorteile antreibt, welche Daten umformuliert werden sollten und wie, sowie den Einfluss von Modellgröße und -familie auf die Datenqualität. Insgesamt zeigt unsere Arbeit, dass es keine Universallösung für die Erzeugung hochwertiger synthetischer Vortrainingsdaten gibt. Die besten Ergebnisse erfordern die gemeinsame Optimierung vieler Faktoren, eine anspruchsvolle Aufgabe, die rigorose Wissenschaft und praktische Expertise erfordert. Naive Ansätze können bescheidene Verbesserungen erzielen, möglicherweise zu hohen Kosten, während gut ausgeführte Methoden transformative Verbesserungen bewirken können, wie BeyondWeb exemplarisch zeigt.

XQuant: Durchbrechen der Speicherwand für LLM-Inferenz mit KV-Cache-Rematerialisierung
XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization

Aug 14

ByAditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

Obwohl die Inferenz von LLMs (Large Language Models) als kritische Arbeitslast für viele nachgelagerte Anwendungen hervorgegangen ist, stellt die effiziente Inferenz von LLMs aufgrund des erheblichen Speicherbedarfs und der Bandbreitenanforderungen eine Herausforderung dar. Parallel dazu haben die Rechenfähigkeiten in den letzten Jahrzehnten sowohl die Speicherkapazität als auch die Bandbreite kontinuierlich übertroffen, ein Trend, der in moderner GPU-Hardware weiterhin erkennbar ist und die Herausforderung der LLM-Inferenz verschärft. Infolgedessen entstehen neue Algorithmen, die erhöhte Rechenleistung gegen reduzierte Speicheroperationen eintauschen. In diesem Zusammenhang präsentieren wir XQuant, das diesen Trend nutzt und eine Reduzierung des Speicherverbrauchs um eine Größenordnung durch Low-Bit-Quantisierung ermöglicht, wobei es erhebliche Genauigkeitsvorteile gegenüber modernsten KV-Cache-Quantisierungsmethoden bietet. Dies erreichen wir, indem wir die Eingabeaktivierungen X der Schicht quantisieren und zwischenspeichern, anstatt den Standard-KV-Cache zu verwenden, und dann die Schlüssel (Keys) und Werte (Values) während der Inferenz on-the-fly neu berechnen. Dies führt im Vergleich zum KV-Caching zu einer sofortigen Speichereinsparung um den Faktor 2. Durch die Anwendung von XQuant erreichen wir eine Speichereinsparung von bis zu ~7,7x mit einer Perplexitätsverschlechterung von <0,1 im Vergleich zum FP16-Baseline. Darüber hinaus nutzt unser Ansatz die Tatsache, dass die X-Werte über verschiedene Schichten hinweg ähnlich sind. Aufbauend auf dieser Beobachtung führen wir XQuant-CL ein, das die schichtübergreifende Ähnlichkeit in den X-Embeddings für extreme Kompression ausnutzt. Über verschiedene Modelle hinweg erreicht XQuant-CL eine Speichereinsparung von bis zu 10x im Vergleich zum FP16-Baseline bei einer Perplexitätsverschlechterung von nur 0,01 und eine Speichereinsparung von 12,5x bei einer Perplexitätsverschlechterung von nur 0,1. XQuant nutzt die rasant zunehmenden Rechenfähigkeiten von Hardwareplattformen, um den Speicher-Engpass zu beseitigen, während es modernste KV-Cache-Quantisierungsmethoden übertrifft und eine nahezu FP16-Genauigkeit über eine breite Palette von Modellen hinweg erreicht.

PaperRegister: Verbesserung der flexibel granularen Papiersuche durch hierarchische Registerindizierung
PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

Aug 14

ByZhuoqun Li, Xuanang Chen, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun

Die Suche nach wissenschaftlichen Artikeln ist eine wichtige Aktivität für Forscher und beinhaltet typischerweise die Verwendung einer Suchanfrage mit einer Beschreibung eines Themas, um relevante Artikel zu finden. Mit zunehmender Vertiefung der Forschung können die Anforderungen an die Artikelsuche flexibler werden, manchmal unter Einbeziehung spezifischer Details wie Modulkonfigurationen, anstatt sich auf grobgranulare Themen zu beschränken. Bisherige Systeme zur Artikelsuche sind jedoch nicht in der Lage, diese flexiblen Anforderungen zu erfüllen, da diese Systeme hauptsächlich Artikelzusammenfassungen sammeln, um einen Index des Korpus zu erstellen, dem detaillierte Informationen fehlen, um die Suche mit feingranularen Anfragen zu unterstützen. In dieser Arbeit schlagen wir PaperRegister vor, das aus einem Offline-Hierarchie-Index und einer Online-adaptiven Suche besteht und den traditionellen abstraktbasierten Index in einen hierarchischen Indexbaum für die Artikelsuche transformiert, wodurch Anfragen mit flexibler Granularität unterstützt werden. Experimente zu Artikelsuche-Aufgaben über eine Reihe von Granularitäten zeigen, dass PaperRegister die beste Leistung erzielt und insbesondere in feingranularen Szenarien hervorragt, was das gute Potenzial als effektive Lösung für flexibel granulare Artikelsuche in realen Anwendungen unterstreicht. Der Code für diese Arbeit ist unter https://github.com/Li-Z-Q/PaperRegister verfügbar.

TexVerse: Ein Universum von 3D-Objekten mit hochauflösenden Texturen
TexVerse: A Universe of 3D Objects with High-Resolution Textures

Aug 14

ByYibo Zhang, Li Zhang, Rui Ma, Nan Cao

Wir stellen TexVerse vor, einen groß angelegten 3D-Datensatz mit hochauflösenden Texturen. Während jüngste Fortschritte in groß angelegten 3D-Datensätzen die Erzeugung hochauflösender Geometrie verbessert haben, bleibt die end-to-end Erstellung hochauflösender Texturen aufgrund des Mangels an geeigneten Datensätzen weitgehend unerforscht. TexVerse schließt diese Lücke mit einer kuratierten Sammlung von über 858K einzigartigen hochauflösenden 3D-Modellen, die von Sketchfab stammen, darunter mehr als 158K Modelle mit physikalisch basierten Rendering-Materialien (PBR). Jedes Modell umfasst alle seine hochauflösenden Varianten, was die Gesamtzahl auf 1,6M 3D-Instanzen erhöht. TexVerse enthält auch spezialisierte Teilmengen: TexVerse-Skeleton mit 69K rigged Modellen und TexVerse-Animation mit 54K animierten Modellen, wobei beide die ursprünglichen Skelett- und Animationsdaten, die vom Benutzer hochgeladen wurden, bewahren. Wir bieten auch detaillierte Modellannotationen an, die allgemeine Merkmale, strukturelle Komponenten und komplexe Eigenschaften beschreiben. TexVerse stellt eine hochwertige Datenressource mit breitem Anwendungspotenzial in der Textursynthese, der PBR-Materialentwicklung, der Animation und verschiedenen 3D-Vision- und Grafikaufgaben bereit.

FantasyTalking2: Zeitschritt-Ebenen-adaptive Präferenzoptimierung für audiogesteuerte Porträtanimation
FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

Aug 15

ByMengChao Wang, Qiang Wang, Fan Jiang, Mu Xu

Jüngste Fortschritte in der audio-gesteuerten Porträtanimation haben beeindruckende Fähigkeiten demonstriert. Allerdings haben bestehende Methoden Schwierigkeiten, sich mit fein abgestimmten menschlichen Präferenzen über mehrere Dimensionen hinweg in Einklang zu bringen, wie z. B. Natürlichkeit der Bewegung, Genauigkeit der Lippensynchronisation und visuelle Qualität. Dies liegt an der Schwierigkeit, zwischen konkurrierenden Präferenzzielen zu optimieren, die oft miteinander in Konflikt stehen, sowie an der Knappheit von groß angelegten, hochwertigen Datensätzen mit mehrdimensionalen Präferenzannotationen. Um diese Probleme zu lösen, führen wir zunächst Talking-Critic ein, ein multimodales Belohnungsmodell, das menschlich ausgerichtete Belohnungsfunktionen lernt, um zu quantifizieren, wie gut generierte Videos mehrdimensionale Erwartungen erfüllen. Mit diesem Modell kuratieren wir Talking-NSQ, einen groß angelegten mehrdimensionalen menschlichen Präferenzdatensatz, der 410.000 Präferenzpaare enthält. Schließlich schlagen wir Timestep-Layer adaptive multi-expert Preference Optimization (TLPO) vor, ein neuartiges Framework zur Ausrichtung von diffusionsbasierten Porträtanimationsmodellen auf fein abgestimmte, mehrdimensionale Präferenzen. TLPO entkoppelt Präferenzen in spezialisierte Expertenmodule, die dann über Zeitschritte und Netzwerkschichten hinweg fusioniert werden, wodurch eine umfassende, fein abgestimmte Verbesserung über alle Dimensionen hinweg ohne gegenseitige Interferenz ermöglicht wird. Experimente zeigen, dass Talking-Critic bestehende Methoden bei der Ausrichtung auf menschliche Präferenzbewertungen deutlich übertrifft. Gleichzeitig erzielt TLPO erhebliche Verbesserungen gegenüber Baseline-Modellen in Bezug auf Lippensynchronisationsgenauigkeit, Natürlichkeit der Bewegung und visuelle Qualität und zeigt eine überlegene Leistung in sowohl qualitativen als auch quantitativen Bewertungen. Unsere Projektseite: https://fantasy-amap.github.io/fantasy-talking2/

StyleMM: Stylisiertes 3D-Morphable-Gesichtsmodell durch textgesteuerte ausgerichtete Bildübersetzung
StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

Aug 15

BySeungmi Lee, Kwan Yun, Junyong Noh

Wir stellen StyleMM vor, ein neuartiges Framework, das ein stilisiertes 3D Morphable Model (3DMM) basierend auf benutzerdefinierten Textbeschreibungen, die einen Zielstil spezifizieren, konstruieren kann. Unser Ansatz baut auf einem vortrainierten Netzwerk für Mesh-Deformation und einem Texturgenerator für realistische menschliche Gesichter auf Basis des ursprünglichen 3DMM auf. Diese Modelle werden durch stilisiertes Gesichtsbildmaterial, das mittels textgesteuerter Bild-zu-Bild (i2i) Übersetzung mit einem Diffusionsmodell generiert wird, feinabgestimmt. Diese Bilder dienen als Stilisierungsziele für das gerenderte Mesh. Um unerwünschte Veränderungen der Identität, Gesichtsausrichtung oder Mimik während der i2i-Übersetzung zu verhindern, führen wir eine Stilisierungsmethode ein, die die Gesichtsattribute des Quellbilds explizit bewahrt. Durch die Beibehaltung dieser kritischen Attribute während der Bildstilisierung gewährleistet der vorgeschlagene Ansatz einen konsistenten 3D-Stiltransfer über den 3DMM-Parameterraum durch bildbasiertes Training. Nach dem Training ermöglicht StyleMM die Feedforward-Generierung von stilisierten Gesichtsmeshes mit expliziter Kontrolle über Form, Ausdruck und Texturparameter, wodurch Meshes mit konsistenter Vertex-Konnektivität und Animierbarkeit erzeugt werden. Quantitative und qualitative Auswertungen zeigen, dass unser Ansatz state-of-the-art Methoden in Bezug auf Identitätsvielfalt und Stilisierungsfähigkeit übertrifft. Der Code und Videos sind verfügbar unter [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).

X-Node: Selbst-Erklärung ist alles, was wir brauchen
X-Node: Self-Explanation is All We Need

Aug 14

ByPrajit Sengupta, Islem Rekik

Graph Neural Networks (GNNs) haben in der Computer Vision und bei der Klassifizierung medizinischer Bilder durch die Erfassung struktureller Abhängigkeiten zwischen Dateninstanzen state-of-the-art Ergebnisse erzielt. Ihre Entscheidungsfindung bleibt jedoch weitgehend undurchsichtig, was ihre Vertrauenswürdigkeit in klinischen Hochrisikoanwendungen, bei denen Interpretierbarkeit entscheidend ist, einschränkt. Bestehende Erklärbarkeitstechniken für GNNs sind typischerweise nachträglich und global und bieten nur begrenzte Einblicke in individuelle Knotenentscheidungen oder lokale Schlussfolgerungen. Wir stellen X-Node vor, ein selbst-erklärendes GNN-Framework, in dem jeder Knoten seine eigene Erklärung als Teil des Vorhersageprozesses generiert. Für jeden Knoten konstruieren wir einen strukturierten Kontextvektor, der interpretierbare Hinweise wie Grad, Zentralität, Clustering, Feature-Salienz und Label-Übereinstimmung innerhalb seiner lokalen Topologie kodiert. Ein leichtgewichtiges Reasoner-Modul bildet diesen Kontext auf einen kompakten Erklärungsvektor ab, der drei Zwecken dient: (1) Rekonstruktion der latenten Einbettung des Knotens über einen Decoder, um Treue zu gewährleisten, (2) Generierung einer natürlichen Spracherklärung mithilfe eines vortrainierten LLM (z. B. Grok oder Gemini) und (3) Führung des GNN selbst über einen „Text-Injection“-Mechanismus, der Erklärungen zurück in die Message-Passing-Pipeline einspeist. Wir evaluieren X-Node anhand von zwei Graph-Datensätzen, die aus MedMNIST und MorphoMNIST abgeleitet wurden, und integrieren es mit GCN-, GAT- und GIN-Backbones. Unsere Ergebnisse zeigen, dass X-Node eine wettbewerbsfähige Klassifizierungsgenauigkeit beibehält, während es treue, pro-Knoten-Erklärungen liefert. Repository: https://github.com/basiralab/X-Node.

Steuerung multimodaler LLMs durch belohnungsgesteuerte Dekodierung
Controlling Multimodal LLMs via Reward-guided Decoding

Aug 15

ByOscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

Da Multimodale Große Sprachmodelle (MLLMs) zunehmend breite Anwendbarkeit finden, wird es immer wünschenswerter, sie an verschiedene Benutzerbedürfnisse anzupassen. In dieser Arbeit untersuchen wir die Anpassung von MLLMs durch kontrolliertes Decodieren. Um dies zu erreichen, führen wir die erste Methode für belohnungsgeführtes Decodieren von MLLMs ein und demonstrieren ihre Anwendung zur Verbesserung ihrer visuellen Verankerung. Unsere Methode umfasst den Aufbau von Belohnungsmodellen für die visuelle Verankerung und deren Nutzung zur Steuerung des Decodierungsprozesses des MLLMs. Konkret bauen wir zwei separate Belohnungsmodelle auf, um den Grad der Objektpräzision und der Objekterkennung in der Ausgabe des Modells unabhängig zu kontrollieren. Unser Ansatz ermöglicht eine Echtzeit-Kontrollierbarkeit des Inferenzprozesses eines MLLMs auf zwei Arten: erstens durch die Kontrolle über die relative Bedeutung jeder Belohnungsfunktion während des Decodierens, was es einem Benutzer ermöglicht, dynamisch zwischen Objektpräzision und Objekterkennung in Bildbeschreibungsaufgaben abzuwägen; zweitens durch die Kontrolle über die Breite der Suche während des Decodierens, was es dem Benutzer ermöglicht, den Kompromiss zwischen dem Rechenaufwand zur Testzeit und dem Grad der visuellen Verankerung zu steuern. Wir evaluieren unsere Methode anhand standardisierter Benchmarks zur Objekthalluzination und zeigen, dass sie eine signifikante Kontrollierbarkeit über die MLLM-Inferenz bietet, während sie bestehende Methoden zur Halluzinationsminderung konsequent übertrifft.

MAESTRO: Maskierte AutoEncoder für multimodale, multitemporale und multispektrale Erdbeobachtungsdaten
MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

Aug 14

ByAntoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier

Selbstüberwachtes Lernen birgt großes Potenzial für die Fernerkundung, doch müssen Standardmethoden des selbstüberwachten Lernens an die einzigartigen Eigenschaften von Erdbeobachtungsdaten angepasst werden. Wir gehen in diese Richtung, indem wir eine umfassende Benchmark von Fusionsstrategien und Normalisierungsschemata für Rekonstruktionsziele für multimodale, multitemporale und multispektrale Erdbeobachtungsdaten durchführen. Basierend auf unseren Erkenntnissen schlagen wir MAESTRO vor, eine neuartige Anpassung des Masked Autoencoder, die optimierte Fusionsstrategien und ein maßgeschneidertes Normalisierungsschema für Rekonstruktionsziele beinhaltet, das ein spektrales Prior als selbstüberwachtes Signal einführt. Evaluiert auf vier Erdbeobachtungsdatensätzen setzt MAESTRO einen neuen State-of-the-art bei Aufgaben, die stark auf multitemporale Dynamiken angewiesen sind, während es bei Aufgaben, die von einer einzelnen mono-temporalen Modalität dominiert werden, äußerst wettbewerbsfähig bleibt. Der Code zur Reproduktion aller unserer Experimente ist unter https://github.com/ignf/maestro verfügbar.

SPARSE-Daten, reiche Ergebnisse: Few-Shot Semi-Supervised Learning durch klassenbedingte Bildübersetzung
SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation

Aug 8

ByGuido Manni, Clemente Lauretti, Loredana Zollo, Paolo Soda

Deep Learning hat die medizinische Bildgebung revolutioniert, doch seine Effektivität wird stark durch unzureichend gelabelte Trainingsdaten eingeschränkt. Dieses Papier stellt ein neuartiges, GAN-basiertes semi-supervidiertes Lernframework vor, das speziell für Szenarien mit geringen Mengen an gelabelten Daten entwickelt wurde und in Umgebungen mit 5 bis 50 gelabelten Proben pro Klasse evaluiert wird. Unser Ansatz integriert drei spezialisierte neuronale Netze – einen Generator für klassenbedingte Bildübersetzung, einen Diskriminator zur Authentizitätsbewertung und Klassifizierung sowie einen dedizierten Klassifikator – innerhalb eines dreiphasigen Trainingsframeworks. Die Methode wechselt zwischen supervidiertem Training auf begrenzten gelabelten Daten und unüberwachtem Lernen, das reichlich ungelabelte Bilder durch Bild-zu-Bild-Übersetzung anstelle der Generierung aus Rauschen nutzt. Wir verwenden Ensemble-basiertes Pseudo-Labeling, das konfidenzgewichtete Vorhersagen des Diskriminators und Klassifikators mit zeitlicher Konsistenz durch exponentiell gleitende Mittelung kombiniert, um zuverlässige Label-Schätzungen für ungelabelte Daten zu ermöglichen. Eine umfassende Evaluierung über elf MedMNIST-Datensätze zeigt, dass unser Ansatz statistisch signifikante Verbesserungen gegenüber sechs state-of-the-art GAN-basierten semi-supervidierten Methoden erzielt, mit besonders starker Leistung im extremen 5-Shot-Setting, wo die Knappheit an gelabelten Daten am herausforderndsten ist. Das Framework behält seine Überlegenheit in allen evaluierten Settings (5, 10, 20 und 50 Shots pro Klasse) bei. Unser Ansatz bietet eine praktische Lösung für Anwendungen in der medizinischen Bildgebung, bei denen die Kosten für Annotationen prohibitiv sind, und ermöglicht robuste Klassifizierungsleistungen selbst bei minimalen gelabelten Daten. Der Code ist verfügbar unter https://github.com/GuidoManni/SPARSE.

BeyondWeb: Erkenntnisse aus der Skalierung synthetischer Daten für das Pretraining auf Billionen-Maßstab
BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

Aug 14