papers.title

papers.description

Seaweed-7B: Kosteneffizientes Training eines Foundation-Modells für die Videogenerierung
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

ByTeam Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang

130

Dieser technische Bericht stellt eine kosteneffiziente Strategie für das Training eines Video-Generierungs-Foundation-Modells vor. Wir präsentieren ein mittelgroßes Forschungsmodell mit etwa 7 Milliarden Parametern (7B), genannt Seaweed-7B, das von Grund auf mit 665.000 H100-GPU-Stunden trainiert wurde. Obwohl es mit moderaten Rechenressourcen trainiert wurde, zeigt Seaweed-7B eine äußerst wettbewerbsfähige Leistung im Vergleich zu zeitgenössischen Video-Generierungsmodellen mit deutlich größerem Umfang. Designentscheidungen sind besonders entscheidend in einem ressourcenbeschränkten Umfeld. Dieser technische Bericht hebt die wesentlichen Designentscheidungen hervor, die die Leistung des mittelgroßen Diffusionsmodells verbessern. Empirisch machen wir zwei Beobachtungen: (1) Seaweed-7B erreicht eine Leistung, die vergleichbar ist oder sogar größere Modelle übertrifft, die mit erheblich mehr GPU-Ressourcen trainiert wurden, und (2) unser Modell, das eine starke Generalisierungsfähigkeit aufweist, kann effektiv über eine breite Palette von Downstream-Anwendungen angepasst werden, entweder durch leichtgewichtiges Fine-Tuning oder durch weiteres Training. Besuchen Sie die Projektseite unter https://seaweed.video/.

GigaTok: Skalierung visueller Tokenizer auf 3 Milliarden Parameter für autoregressive Bildgenerierung
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

Bei der autoregressiven (AR) Bildgenerierung komprimieren visuelle Tokenizer Bilder in kompakte diskrete latente Tokens, was ein effizientes Training nachgelagerter autoregressiver Modelle für die visuelle Generierung durch Next-Token-Vorhersage ermöglicht. Während die Skalierung visueller Tokenizer die Bildrekonstruktionsqualität verbessert, verschlechtert sie oft die nachgelagerte Generierungsqualität – eine Herausforderung, die in der bestehenden Literatur nicht ausreichend behandelt wird. Um dies zu beheben, stellen wir GigaTok vor, den ersten Ansatz, der gleichzeitig die Bildrekonstruktion, Generierung und Repräsentationslernfähigkeit bei der Skalierung visueller Tokenizer verbessert. Wir identifizieren die zunehmende Komplexität des latenten Raums als den Schlüsselfaktor hinter dem Rekonstruktions- vs. Generierungs-Dilemma. Um dies zu mildern, schlagen wir eine semantische Regularisierung vor, die die Merkmale des Tokenizers mit semantisch konsistenten Merkmalen eines vortrainierten visuellen Encoders ausrichtet. Diese Einschränkung verhindert eine übermäßige Komplexität des latenten Raums während der Skalierung und führt zu konsistenten Verbesserungen sowohl in der Rekonstruktion als auch in der nachgelagerten autoregressiven Generierung. Aufbauend auf der semantischen Regularisierung untersuchen wir drei Schlüsselpraktiken für die Skalierung von Tokenizern: (1) die Verwendung von 1D-Tokenizern für bessere Skalierbarkeit, (2) die Priorisierung der Decoder-Skalierung bei der Erweiterung von Encoder und Decoder und (3) den Einsatz von Entropieverlust zur Stabilisierung des Trainings für Tokenizer im Milliardenmaßstab. Durch die Skalierung auf 3 Milliarden Parameter erreicht GigaTok Spitzenleistungen in der Rekonstruktion, der nachgelagerten AR-Generierung und der Qualität der nachgelagerten AR-Repräsentation.

MineWorld: Ein Echtzeit- und Open-Source-Interaktives Weltmodell auf Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

Weltmodellierung ist eine entscheidende Aufgabe, um intelligenten Agenten zu ermöglichen, effektiv mit Menschen zu interagieren und in dynamischen Umgebungen zu operieren. In dieser Arbeit schlagen wir MineWorld vor, ein Echtzeit-interaktives Weltmodell auf Basis von Minecraft, einem offenen Sandbox-Spiel, das häufig als Testumgebung für die Weltmodellierung genutzt wird. MineWorld wird von einem visuell-aktionsbasierten autoregressiven Transformer angetrieben, der gepaarte Spielszenen und entsprechende Aktionen als Eingabe erhält und daraus resultierende neue Szenen nach den Aktionen generiert. Konkret transformieren wir visuelle Spielszenen und Aktionen mithilfe eines Bild-Tokenizers und eines Aktions-Tokenizers in diskrete Token-IDs und bilden die Modelleingabe durch die Verkettung der beiden Arten von IDs in abwechselnder Reihenfolge. Das Modell wird dann mit der Vorhersage des nächsten Tokens trainiert, um sowohl reichhaltige Repräsentationen der Spielzustände als auch die Bedingungen zwischen Zuständen und Aktionen gleichzeitig zu erlernen. Bei der Inferenz entwickeln wir einen neuartigen parallelen Dekodierungsalgorithmus, der die räumlich redundanten Tokens in jedem Frame gleichzeitig vorhersagt, wodurch Modelle unterschiedlicher Größen 4 bis 7 Frames pro Sekunde generieren und Echtzeit-Interaktionen mit Spielern ermöglichen. In der Evaluation schlagen wir neue Metriken vor, die nicht nur die visuelle Qualität, sondern auch die Fähigkeit zur Aktionsfolge bei der Generierung neuer Szenen bewerten, was für ein Weltmodell entscheidend ist. Unsere umfassende Evaluation zeigt die Wirksamkeit von MineWorld, das state-of-the-art, auf Diffusion basierende Open-Source-Weltmodelle deutlich übertrifft. Der Code und das Modell wurden veröffentlicht.

VLM-R1: Ein stabiles und generalisierbares R1-artiges großes Vision-Sprache-Modell
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao

Kürzlich hat DeepSeek R1 gezeigt, dass Reinforcement Learning (RL) die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung durch ein einfaches, aber effektives Design erheblich verbessern kann. Der Kern von R1 liegt in seiner regelbasierten Belohnungsformulierung, die Aufgaben mit deterministischen Ground-Truth-Antworten nutzt, um eine präzise und stabile Belohnungsberechnung zu ermöglichen. Im visuellen Bereich beobachten wir ähnlich, dass eine Vielzahl von Aufgaben zum visuellen Verständnis von Natur aus mit klar definierten Ground-Truth-Annotationen ausgestattet sind. Diese Eigenschaft macht sie natürlich kompatibel mit regelbasierten Belohnungsmechanismen. Motiviert durch diese Beobachtung untersuchen wir die Erweiterung von R1-ähnlichem Reinforcement Learning auf Vision-Language Models (VLMs), mit dem Ziel, deren visuelle Schlussfolgerungsfähigkeiten zu verbessern. Zu diesem Zweck entwickeln wir VLM-R1, ein spezielles Framework, das darauf abzielt, RL zu nutzen, um die Leistung von VLMs bei allgemeinen Vision-Language-Aufgaben zu steigern. Mit diesem Framework untersuchen wir weiterhin die Machbarkeit der Anwendung von RL im visuellen Bereich. Experimentelle Ergebnisse zeigen, dass das RL-basierte Modell nicht nur wettbewerbsfähige Leistungen bei Aufgaben zum visuellen Verständnis erbringt, sondern auch die Generalisierungsfähigkeit von Supervised Fine-Tuning (SFT) übertrifft. Darüber hinaus führen wir umfassende Ablationsstudien durch, die eine Reihe bemerkenswerter Erkenntnisse aufdecken, darunter das Auftreten von Reward Hacking bei der Objekterkennung, das Auftreten des „OD Aha-Moments“, die Auswirkungen der Qualität der Trainingsdaten und das Skalierungsverhalten von RL bei verschiedenen Modellgrößen. Durch diese Analysen möchten wir das Verständnis vertiefen, wie Reinforcement Learning die Fähigkeiten von Vision-Language-Modellen verbessert, und wir hoffen, dass unsere Erkenntnisse und Open-Source-Beiträge den Fortschritt in der Vision-Language-RL-Community weiter unterstützen werden. Unser Code und Modell sind unter https://github.com/om-ai-lab/VLM-R1 verfügbar.

SQL-R1: Training eines Natural Language zu SQL Reasoning Modells durch Reinforcement Learning
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Apr 11

ByPeixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo

Natural Language to SQL (NL2SQL) ermöglicht intuitive Interaktionen mit Datenbanken, indem natürliche Sprachabfragen in strukturierte SQL-Anweisungen umgewandelt werden. Trotz jüngster Fortschritte bei der Verbesserung der Mensch-Computer-Interaktion in Datenbankanwendungen bestehen weiterhin erhebliche Herausforderungen, insbesondere in Bezug auf die Inferenzleistung in komplexen Szenarien mit Multi-Table-Joins und verschachtelten Abfragen. Aktuelle Methoden nutzen hauptsächlich Supervised Fine-Tuning (SFT), um das NL2SQL-Modell zu trainieren, was die Anpassungsfähigkeit und Interpretierbarkeit in neuen Umgebungen (z. B. Finanzen und Gesundheitswesen) einschränken kann. Um die Reasoning-Leistung des NL2SQL-Modells in den oben genannten komplexen Situationen zu verbessern, führen wir SQL-R1 ein, ein neuartiges NL2SQL-Reasoning-Modell, das mit Reinforcement-Learning (RL)-Algorithmen trainiert wird. Wir entwerfen eine spezialisierte RL-basierte Belohnungsfunktion, die auf NL2SQL-Aufgaben zugeschnitten ist, und diskutieren die Auswirkungen des Cold Starts auf die Effektivität des intensiven Trainings. Darüber hinaus erreichen wir eine wettbewerbsfähige Genauigkeit mit nur einer geringen Menge synthetischer NL2SQL-Daten für das augmentierte Training und untersuchen weiterhin Data Engineering für RL. In bestehenden Experimenten erreicht SQL-R1 eine Ausführungsgenauigkeit von 88,6 % bzw. 66,6 % auf den Benchmarks Spider und BIRD, wobei nur das 7B-Basismodell verwendet wird.

PixelFlow: Pixel-basierte Generative Modelle mit Fluss
PixelFlow: Pixel-Space Generative Models with Flow

Apr 10

ByShoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo

Wir stellen PixelFlow vor, eine Familie von Bildgenerierungsmodellen, die direkt im Rohpixelraum arbeiten, im Gegensatz zu den vorherrschenden Modellen im latenten Raum. Dieser Ansatz vereinfacht den Bildgenerierungsprozess, indem er die Notwendigkeit eines vortrainierten Variational Autoencoders (VAE) eliminiert und das gesamte Modell end-to-end trainierbar macht. Durch effiziente Kaskadenflussmodellierung erreicht PixelFlow erschwingliche Rechenkosten im Pixelraum. Es erzielt einen FID-Wert von 1,98 auf dem 256x256 ImageNet-Klassenerkennungs-Benchmark für die bedingte Bildgenerierung. Die qualitativen Text-zu-Bild-Ergebnisse zeigen, dass PixelFlow in Bezug auf Bildqualität, Kreativität und semantische Kontrolle hervorragend abschneidet. Wir hoffen, dass dieses neue Paradigma neue Möglichkeiten für die nächste Generation von visuellen Generierungsmodellen eröffnet und inspiriert. Code und Modelle sind unter https://github.com/ShoufaChen/PixelFlow verfügbar.

ZipIR: Latenter Pyramiden-Diffusionstransformator für die Hochauflösungsbildrestaurierung
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Apr 11

ByYongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo

Jüngste Fortschritte bei generativen Modellen haben die Fähigkeiten zur Bildrestaurierung erheblich verbessert, insbesondere durch leistungsstarke Diffusionsmodelle, die eine bemerkenswerte Wiederherstellung semantischer Details und lokaler Genauigkeit bieten. Die Anwendung dieser Modelle bei ultrahohen Auflösungen steht jedoch vor einem kritischen Kompromiss zwischen Qualität und Effizienz, der auf den rechenintensiven Anforderungen von Langstrecken-Aufmerksamkeitsmechanismen beruht. Um dies zu adressieren, stellen wir ZipIR vor, ein neuartiges Framework, das Effizienz, Skalierbarkeit und Langstreckenmodellierung für die Restaurierung hochauflösender Bilder verbessert. ZipIR verwendet eine stark komprimierte latente Darstellung, die das Bild um das 32-fache komprimiert, wodurch die Anzahl der räumlichen Token effektiv reduziert wird und die Verwendung von hochkapazitiven Modellen wie dem Diffusion Transformer (DiT) ermöglicht wird. Zu diesem Zweck schlagen wir ein Latent Pyramid VAE (LP-VAE)-Design vor, das den latenten Raum in Subbänder strukturiert, um das Diffusionstraining zu erleichtern. ZipIR, das auf Vollbildern mit einer Auflösung von bis zu 2K trainiert wurde, übertrifft bestehende diffusionsbasierte Methoden und bietet unübertroffene Geschwindigkeit und Qualität bei der Restaurierung hochauflösender Bilder aus stark degradierten Eingaben.

Verstehen PhD-Level-LLMs wirklich grundlegende Addition? Untersuchung von Regelverständnis vs. Auswendiglernen in großen Sprachmodellen
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Apr 7

ByYang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan

Trotz hoher Benchmark-Ergebnisse scheitern Large Language Models (LLMs) oft an einfachen Problemen, was eine kritische Frage aufwirft: Lernen LLMs mathematische Prinzipien oder merken sie sich lediglich Muster? Anstatt zunehmend komplexe Benchmarks wie in jüngsten Arbeiten zu entwerfen, untersuchen wir dies anhand der elementaren Addition zweier Ganzzahlen (0 bis 2^{64}) und prüfen zwei Kernmerkmale: Kommutativität (A+B=B+A) und kompositionelle Generalisierung (über isomorphe symbolische Abbildungen, z. B. 7 → y). Während state-of-the-art LLMs bei numerischer Addition eine Genauigkeit von 73,8–99,8 % erreichen, bricht die Leistung bei symbolischer Abbildung auf ≤7,5 % ein, was auf ein Scheitern bei der Generalisierung gelernte Regeln hinweist. Nicht-monotone Leistungsskalierung mit der Ziffernanzahl und häufige Verstöße gegen die Kommutativität (über 1.700 Fälle von A+B ≠ B+A) untermauern dies weiter. Die explizite Angabe von Additionsregeln verschlechtert die Leistung im Durchschnitt um 81,2 %, während Selbstbeschreibungen die Basisgenauigkeit beibehalten, was darauf hindeutet, dass die arithmetische Verarbeitung von LLMs nicht mit menschlich definierten Prinzipien übereinstimmt. Unsere Ergebnisse zeigen, dass aktuelle LLMs eher auf Mustererkennung als auf echtes Regelverständnis angewiesen sind, was architektonische Grenzen und die Notwendigkeit neuer Ansätze für echtes mathematisches Denken verdeutlicht.

Visuelle Chroniken: Nutzung multimodaler LLMs zur Analyse umfangreicher Bildsammlungen
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Apr 11

ByBoyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser

Wir stellen ein System vor, das Multimodale LLMs (MLLMs) verwendet, um eine große Datenbank mit zig Millionen Bildern, die zu verschiedenen Zeitpunkten aufgenommen wurden, zu analysieren, mit dem Ziel, Muster in zeitlichen Veränderungen zu entdecken. Insbesondere möchten wir häufig gemeinsam auftretende Veränderungen („Trends“) in einer Stadt über einen bestimmten Zeitraum erfassen. Im Gegensatz zu früheren visuellen Analysen beantwortet unsere Analyse offene Fragen (z. B. „Welche Arten von Veränderungen treten in der Stadt häufig auf?“) ohne vorgegebene Zielobjekte oder Trainingslabels. Diese Eigenschaften machen bisherige lernbasierte oder unüberwachte visuelle Analysetools ungeeignet. Wir identifizieren MLLMs als neuartiges Werkzeug aufgrund ihrer Fähigkeit zum offenen semantischen Verständnis. Allerdings sind unsere Datensätze vier Größenordnungen zu groß, um sie als Kontext in ein MLLM einzugeben. Daher führen wir ein Bottom-up-Verfahren ein, das das massive Problem der visuellen Analyse in besser handhabbare Teilprobleme zerlegt. Wir entwerfen sorgfältig MLLM-basierte Lösungen für jedes Teilproblem. Während der Experimente und Ablationsstudien mit unserem System stellen wir fest, dass es die Baselines deutlich übertrifft und in der Lage ist, interessante Trends aus Bildern großer Städte zu entdecken (z. B. „Einrichtung von Außengastronomie“, „Überführung wurde blau gestrichen“ usw.). Weitere Ergebnisse und interaktive Demos finden Sie unter https://boyangdeng.com/visual-chronicles.

FlexIP: Dynamische Steuerung von Erhaltung und Persönlichkeit für maßgeschneiderte Bildgenerierung
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Apr 10

ByLinyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao

Mit dem rasanten Fortschritt von 2D-Generierungsmodellen hat die Bewahrung der Subjektidentität bei gleichzeitiger Ermöglichung vielfältiger Bearbeitungen einen zentralen Forschungsfokus eingenommen. Bestehende Methoden stehen typischerweise vor inhärenten Zielkonflikten zwischen Identitätserhalt und personalisierter Manipulation. Wir stellen FlexIP vor, ein neuartiges Framework, das diese Ziele durch zwei dedizierte Komponenten entkoppelt: einen Personalisierungsadapter für stilistische Manipulation und einen Erhaltungsadapter für die Identitätsbewahrung. Durch die explizite Integration beider Steuerungsmechanismen in das Generierungsmodell ermöglicht unser Framework eine flexible parametrisierte Steuerung während der Inferenz durch dynamische Anpassung des Gewichtsadapters. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Leistungsgrenzen konventioneller Methoden durchbricht und eine überlegene Identitätsbewahrung bei gleichzeitiger Unterstützung vielfältigerer personalisierter Generierungsfähigkeiten erreicht (Projektseite: https://flexip-tech.github.io/flexip/).

In-2-4D: Inbetweening von zwei Einzelbildern zur 4D-Generierung
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Apr 11

BySauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri

Wir schlagen ein neues Problem vor, In-2-4D, für die generative 4D (d.h. 3D + Bewegung) Inbetweening aus einer minimalistischen Eingabekonfiguration: zwei Einzelbilder, die ein Objekt in zwei verschiedenen Bewegungszuständen erfassen. Gegeben zwei Bilder, die den Start- und Endzustand eines Objekts in Bewegung darstellen, ist unser Ziel, die Bewegung in 4D zu generieren und zu rekonstruieren. Wir verwenden ein Video-Interpolationsmodell, um die Bewegung vorherzusagen, aber große Bild-zu-Bild-Bewegungen können zu mehrdeutigen Interpretationen führen. Um dies zu überwinden, setzen wir einen hierarchischen Ansatz ein, um Keyframes zu identifizieren, die visuell nahe an den Eingabezuständen liegen und signifikante Bewegung zeigen, und erzeugen dann glatte Fragmente zwischen ihnen. Für jedes Fragment konstruieren wir die 3D-Darstellung des Keyframes mithilfe von Gaussian Splatting. Die zeitlichen Frames innerhalb des Fragments leiten die Bewegung und ermöglichen deren Transformation in dynamische Gaussians durch ein Deformationsfeld. Um die zeitliche Konsistenz zu verbessern und die 3D-Bewegung zu verfeinern, erweitern wir die Selbstaufmerksamkeit der Multi-View-Diffusion über Zeitschritte und wenden eine Regularisierung der starren Transformation an. Schließlich fügen wir die unabhängig generierten 3D-Bewegungssegmente durch Interpolation der Randdeformationsfelder zusammen und optimieren sie, um sie mit dem leitenden Video abzugleichen, wodurch glatte und flimmerfreie Übergänge sichergestellt werden. Durch umfangreiche qualitative und quantitative Experimente sowie eine Benutzerstudie zeigen wir die Wirksamkeit unserer Methode und ihrer Komponenten. Die Projektseite ist verfügbar unter https://in-2-4d.github.io/.

ModernBERT oder DeBERTaV3? Untersuchung des Einflusses von Architektur und Daten auf die Leistung von Transformer-Encoder-Modellen
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Apr 11

ByWissam Antoun, Benoît Sagot, Djamé Seddah

Vortrainierte Transformer-Encoder-Modelle wie DeBERTaV3 und ModernBERT führen architektonische Fortschritte ein, die darauf abzielen, Effizienz und Leistung zu verbessern. Obwohl die Autoren von ModernBERTover DeBERTaV3 auf mehreren Benchmarks eine verbesserte Leistung berichten, erschweren das Fehlen offengelegter Trainingsdaten und der Mangel an Vergleichen mit einem gemeinsamen Datensatz die Bestimmung, ob diese Gewinne auf architektonische Verbesserungen oder Unterschiede in den Trainingsdaten zurückzuführen sind. In dieser Arbeit führen wir eine kontrollierte Studie durch, indem wir ModernBERT auf demselben Datensatz wie CamemBERTaV2, einem französischen DeBERTaV3-Modell, vortrainieren, um den Effekt des Modelldesigns zu isolieren. Unsere Ergebnisse zeigen, dass die vorherige Modellgeneration in Bezug auf Stichprobeneffizienz und Gesamtleistung auf Benchmarks überlegen bleibt, wobei der Hauptvorteil von ModernBERT in der schnelleren Trainings- und Inferenzgeschwindigkeit liegt. Dennoch bietet das neu vorgeschlagene Modell im Vergleich zu früheren Modellen wie BERT und RoBERTa weiterhin bedeutende architektonische Verbesserungen. Zusätzlich beobachten wir, dass hochwertige Vortrainingsdaten die Konvergenz beschleunigen, aber die Endleistung nicht signifikant verbessern, was auf eine mögliche Sättigung der Benchmarks hindeutet. Diese Erkenntnisse unterstreichen die Bedeutung der Trennung von Vortrainingsdaten und architektonischen Innovationen bei der Bewertung von Transformer-Modellen.

CoRAG: Kollaboratives abrufverstärktes Generieren
CoRAG: Collaborative Retrieval-Augmented Generation

Apr 2

ByAashiq Muhamed, Mona Diab, Virginia Smith

Retrieval-Augmented Generation (RAG)-Modelle zeichnen sich in wissensintensiven Aufgaben aus, insbesondere unter Few-Shot-Learning-Bedingungen. Wir stellen CoRAG vor, ein Framework, das RAG auf kollaborative Umgebungen erweitert, in denen Clients gemeinsam ein geteiltes Modell unter Verwendung eines kollaborativen Passagen-Speichers trainieren. Um CoRAG zu evaluieren, führen wir CRAB ein, einen Benchmark für kollaboratives homogenes Open-Domain Question Answering. Unsere Experimente zeigen, dass CoRAG in ressourcenarmen Szenarien sowohl parametrische kollaborative Lernmethoden als auch lokal trainierte RAG-Modelle durchweg übertrifft. Weitere Analysen verdeutlichen die entscheidende Bedeutung relevanter Passagen im gemeinsamen Speicher, die überraschenden Vorteile der Einbindung irrelevanter Passagen sowie das Potenzial von Hard Negatives, die Leistung negativ zu beeinflussen. Dies führt zu einer neuen Überlegung im kollaborativen RAG: den Abwägungen zwischen der Nutzung einer kollektiv angereicherten Wissensbasis und dem potenziellen Risiko der Einbindung schädlicher Passagen anderer Clients. Unsere Ergebnisse unterstreichen die Machbarkeit von CoRAG, heben aber auch zentrale Gestaltungsherausforderungen und vielversprechende Ansätze für zukünftige Forschung hervor.

UKBOB: Eine Milliarde MRI-beschriftete Masken für generalisierbare 3D-Medizinbildsegmentierung
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Apr 9

ByEmmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi

In der medizinischen Bildgebung besteht die größte Herausforderung darin, groß angelegte, annotierte Datensätze zu sammeln, was auf Datenschutzbedenken, logistische Schwierigkeiten und hohe Labeling-Kosten zurückzuführen ist. In dieser Arbeit präsentieren wir UK Biobank Organs and Bones (UKBOB), den größten annotierten Datensatz von Körperorganen, der 51.761 3D-MRT-Proben (entsprechend 17,9 Millionen 2D-Bildern) und mehr als 1,37 Milliarden 2D-Segmentierungsmasken von 72 Organen umfasst, die alle auf dem UK Biobank MRT-Datensatz basieren. Wir nutzen automatisches Labeling, führen eine automatisierte Label-Bereinigungspipeline mit organspezifischen Filtern ein und annotieren manuell eine Teilmenge von 300 MRTs mit 11 abdominalen Klassen, um die Qualität zu validieren (bezeichnet als UKBOB-manual). Dieser Ansatz ermöglicht es, die Datensatzsammlung zu skalieren, während das Vertrauen in die Labels erhalten bleibt. Wir bestätigen die Gültigkeit der Labels weiterhin, indem wir die Null-Shot-Generalisierung von trainierten Modellen auf dem gefilterten UKBOB auf andere kleine annotierte Datensätze aus ähnlichen Domänen (z. B. abdominale MRT) demonstrieren. Um den Effekt von verrauschten Labels weiter zu mildern, schlagen wir eine neue Methode namens Entropy Test-time Adaptation (ETTA) vor, um die Segmentierungsausgabe zu verfeinern. Wir verwenden UKBOB, um ein Foundation-Modell, Swin-BOB, für die 3D-Segmentierung medizinischer Bilder basierend auf der Swin-UNetr-Architektur zu trainieren, und erzielen state-of-the-art Ergebnisse in mehreren Benchmarks der 3D-medizinischen Bildgebung, einschließlich der BRATS-Hirn-MRT-Tumor-Herausforderung (mit einer Verbesserung von 0,4 %) und dem BTCV-abdominalen CT-Scan-Benchmark (mit einer Verbesserung von 1,3 %). Die vortrainierten Modelle und der Code sind unter https://emmanuelleb985.github.io/ukbob verfügbar, und die gefilterten Labels werden mit der UK Biobank veröffentlicht.

Trainingsfreie Steuerung in der Text-zu-Video-Generierung durch multimodale Planung und strukturierte Rauschinitialisierung
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Apr 11

ByJialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal

Jüngste Fortschritte in Text-zu-Video (T2V)-Diffusionsmodellen haben die visuelle Qualität der generierten Videos erheblich verbessert. Dennoch fällt es selbst aktuellen T2V-Modellen schwer, Textbeschreibungen präzise zu folgen, insbesondere wenn die Eingabe eine genaue Steuerung von räumlichen Anordnungen oder Objektbahnen erfordert. Eine aktuelle Forschungsrichtung nutzt Layout-Guidance für T2V-Modelle, die eine Feinabstimmung oder iterative Manipulation der Aufmerksamkeitskarte während der Inferenzzeit erfordern. Dies erhöht den Speicherbedarf erheblich, was die Verwendung eines großen T2V-Modells als Backbone erschwert. Um dies zu adressieren, stellen wir Video-MSG vor, eine trainingsfreie Guidance-Methode für die T2V-Generierung, die auf multimodaler Planung und strukturierter Rauschinitialisierung basiert. Video-MSG besteht aus drei Schritten: In den ersten beiden Schritten erstellt Video-MSG einen Video-Sketch, einen feingranularen räumlich-zeitlichen Plan für das endgültige Video, der Hintergrund, Vordergrund und Objektbahnen in Form von Entwurfsvideobildern spezifiziert. Im letzten Schritt leitet Video-MSG ein nachgeschaltetes T2V-Diffusionsmodell mit dem Video-Sketch durch Rauschinversion und Entrauschen an. Bemerkenswerterweise benötigt Video-MSG weder eine Feinabstimmung noch eine Aufmerksamkeitsmanipulation mit zusätzlichem Speicher während der Inferenzzeit, was die Verwendung großer T2V-Modelle erleichtert. Video-MSG zeigt seine Wirksamkeit bei der Verbesserung der Textausrichtung mit mehreren T2V-Backbones (VideoCrafter2 und CogVideoX-5B) auf gängigen T2V-Generierungs-Benchmarks (T2VCompBench und VBench). Wir bieten umfassende Ablationsstudien zu Rauschinversionsraten, verschiedenen Hintergrundgeneratoren, Hintergrundobjekterkennung und Vordergrundobjektsegmentierung.

BlenderGym: Benchmarking von Fundamentalen Modellsystemen für die Grafikbearbeitung
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Apr 2

ByYunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas

Die Bearbeitung von 3D-Grafiken ist in Anwendungen wie der Filmproduktion und dem Spieldesign von entscheidender Bedeutung, bleibt jedoch ein zeitaufwändiger Prozess, der hochspezialisierte Fachkenntnisse erfordert. Die Automatisierung dieses Prozesses ist herausfordernd, da die grafische Bearbeitung eine Vielzahl von Aufgaben umfasst, die jeweils unterschiedliche Fähigkeiten erfordern. In jüngster Zeit haben Vision-Language-Modelle (VLMs) als leistungsstarkes Framework für die Automatisierung des Bearbeitungsprozesses an Bedeutung gewonnen, doch ihre Entwicklung und Bewertung werden durch das Fehlen eines umfassenden Benchmarks behindert, der menschliches Wahrnehmungsvermögen erfordert und die Komplexität der Bearbeitung in der realen Welt widerspiegelt. In dieser Arbeit präsentieren wir BlenderGym, den ersten umfassenden VLM-System-Benchmark für die Bearbeitung von 3D-Grafiken. BlenderGym bewertet VLM-Systeme anhand von codebasierten 3D-Rekonstruktionsaufgaben. Wir evaluieren proprietäre und Open-Source-VLM-Systeme und stellen fest, dass selbst das modernste VLM-System mit Aufgaben zu kämpfen hat, die für menschliche Blender-Nutzer relativ einfach sind. Durch BlenderGym ermöglicht, untersuchen wir, wie Inferenz-Skalierungstechniken die Leistung von VLMs bei Grafikbearbeitungsaufgaben beeinflussen. Bemerkenswerterweise zeigen unsere Ergebnisse, dass der Verifizierer, der zur Steuerung der Skalierung der Generierung verwendet wird, selbst durch Inferenz-Skalierung verbessert werden kann, was aktuelle Erkenntnisse zur Inferenz-Skalierung der LLM-Generierung bei Codierungs- und Mathematikaufgaben ergänzt. Wir zeigen weiterhin, dass Inferenz-Rechenleistung nicht gleichmäßig effektiv ist und durch eine strategische Verteilung zwischen Generierung und Verifizierung optimiert werden kann.

InteractVLM: 3D-Interaktionsanalyse aus 2D-Foundation-Modellen
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Apr 7

BySai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas

Wir stellen InteractVLM vor, eine neuartige Methode zur Schätzung von 3D-Kontaktpunkten auf menschlichen Körpern und Objekten aus einzelnen Bildern in natürlichen Umgebungen, die eine präzise 3D-Rekonstruktion von Mensch-Objekt-Interaktionen ermöglicht. Dies ist aufgrund von Verdeckungen, Tiefenunschärfen und der großen Vielfalt an Objektformen eine Herausforderung. Bisherige Methoden stützen sich auf 3D-Kontaktannotationen, die mit teuren Motion-Capture-Systemen oder aufwendiger manueller Beschriftung gesammelt wurden, was die Skalierbarkeit und Generalisierbarkeit einschränkt. Um dies zu überwinden, nutzt InteractVLM das breite visuelle Wissen großer Vision-Language-Modelle (VLMs), die mit begrenzten 3D-Kontaktdaten feinabgestimmt werden. Die direkte Anwendung dieser Modelle ist jedoch nicht trivial, da sie nur in 2D argumentieren, während Mensch-Objekt-Kontakte inhärent 3D sind. Daher führen wir ein neuartiges Render-Localize-Lift-Modul ein, das: (1) 3D-Körper- und Objektoberflächen über Multi-View-Rendering in den 2D-Raum einbettet, (2) ein neuartiges Multi-View-Lokalisierungsmodell (MV-Loc) trainiert, um Kontakte in 2D abzuleiten, und (3) diese in 3D überführt. Zusätzlich schlagen wir eine neue Aufgabe namens Semantic Human Contact Estimation vor, bei der menschliche Kontaktvorhersagen explizit auf Objektsemantik basieren, was eine reichhaltigere Interaktionsmodellierung ermöglicht. InteractVLM übertrifft bestehende Arbeiten in der Kontaktschätzung und erleichtert auch die 3D-Rekonstruktion aus einem Bild in natürlicher Umgebung. Code und Modelle sind verfügbar unter https://interactvlm.is.tue.mpg.de.

SpecReason: Schnelle und präzise Inferenzzeitberechnung durch spekulatives Schließen
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Apr 10

ByRui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali

Jüngste Fortschritte in der Inferenzzeitberechnung haben die Leistung bei komplexen Aufgaben durch die Erzeugung langer Gedankenketten (CoTs) mithilfe von Large Reasoning Models (LRMs) erheblich verbessert. Diese gesteigerte Genauigkeit geht jedoch mit einer hohen Inferenzlatenz einher, die auf die Länge der generierten Argumentationssequenzen und die autoregressive Natur der Dekodierung zurückzuführen ist. Unser zentraler Ansatz zur Bewältigung dieser Overheads besteht darin, dass die LRM-Inferenz und die darin eingebettete Argumentation hochgradig tolerant gegenüber Approximationen sind: Komplexe Aufgaben werden typischerweise in einfachere Schritte unterteilt, von denen jeder seinen Nutzen auf der Grundlage der semantischen Einsicht bietet, die er für nachfolgende Schritte liefert, und nicht aufgrund der exakten Tokens, die er generiert. Dementsprechend stellen wir SpecReason vor, ein System, das die LRM-Inferenz automatisch beschleunigt, indem es ein leichtgewichtiges Modell verwendet, um (spekulativ) einfachere Zwischenschritte der Argumentation durchzuführen, und das teure Basismodell nur zur Bewertung (und potenziellen Korrektur) der spekulierten Ausgaben reserviert. Wichtig ist, dass SpecReason den Fokus auf die Ausnutzung der semantischen Flexibilität von Denk-Tokens legt, um die Genauigkeit der Endantwort zu bewahren, was komplementär zu früheren Spekulationstechniken ist, insbesondere zum spekulativen Dekodieren, das eine Token-Äquivalenz in jedem Schritt erfordert. Über eine Vielzahl von Argumentationsbenchmarks hinweg erreicht SpecReason eine Beschleunigung um das 1,5- bis 2,5-fache gegenüber der herkömmlichen LRM-Inferenz und verbessert die Genauigkeit um 1,0-9,9\%. Im Vergleich zum spekulativen Dekodieren ohne SpecReason ergibt ihre Kombination eine zusätzliche Latenzreduktion von 19,4-44,2\%. Wir stellen SpecReason unter https://github.com/ruipeterpan/specreason als Open-Source zur Verfügung.

Latente Diffusions-Autoencoder: Auf dem Weg zu effizientem und aussagekräftigem unüberwachtem Repräsentationslernen in der medizinischen Bildgebung
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Apr 11

ByGabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman

Diese Studie stellt den Latent Diffusion Autoencoder (LDAE) vor, ein neuartiges Encoder-Decoder-Framework auf Diffusionsbasis für effizientes und bedeutungsvolles unüberwachtes Lernen in der medizinischen Bildgebung, mit Fokus auf die Alzheimer-Krankheit (AD) unter Verwendung von Gehirn-MRT-Daten aus der ADNI-Datenbank als Fallstudie. Im Gegensatz zu herkömmlichen Diffusions-Autoencodern, die im Bildraum arbeiten, wendet der LDAE den Diffusionsprozess in einer komprimierten latenten Repräsentation an, was die Recheneffizienz verbessert und das Lernen von 3D-medizinischen Bildrepräsentationen handhabbar macht. Zur Validierung des vorgeschlagenen Ansatzes untersuchen wir zwei Schlüsselhypothesen: (i) Der LDAE erfasst effektiv bedeutungsvolle semantische Repräsentationen in 3D-Gehirn-MRTs, die mit AD und Alterung assoziiert sind, und (ii) der LDAE erreicht eine hochwertige Bildgenerierung und -rekonstruktion bei gleichzeitiger Recheneffizienz. Die experimentellen Ergebnisse unterstützen beide Hypothesen: (i) Linear-Probe-Auswertungen zeigen vielversprechende diagnostische Leistungen für AD (ROC-AUC: 90%, ACC: 84%) und Altersvorhersage (MAE: 4,1 Jahre, RMSE: 5,2 Jahre); (ii) die gelernten semantischen Repräsentationen ermöglichen Attributmanipulationen, die anatomisch plausible Modifikationen erzeugen; (iii) Semantische Interpolationsexperimente zeigen eine starke Rekonstruktion fehlender Scans mit einem SSIM von 0,969 (MSE: 0,0019) für eine Lücke von 6 Monaten. Selbst für längere Lücken (24 Monate) behält das Modell eine robuste Leistung bei (SSIM > 0,93, MSE < 0,004), was auf die Fähigkeit hinweist, zeitliche Fortschrittstrends zu erfassen; (iv) im Vergleich zu herkömmlichen Diffusions-Autoencodern erhöht der LDAE den Inferenzdurchsatz signifikant (20x schneller) und verbessert gleichzeitig die Rekonstruktionsqualität. Diese Ergebnisse positionieren den LDAE als ein vielversprechendes Framework für skalierbare medizinische Bildgebungsanwendungen, mit dem Potenzial, als Grundlagenmodell für die medizinische Bildanalyse zu dienen. Code verfügbar unter https://github.com/GabrieleLozupone/LDAE.

SAEs können das Verlernen verbessern: Dynamische Sparse Autoencoder als Schutzmechanismen für präzises Verlernen in LLMs
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Apr 11

ByAashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith

Maschinelles Verlernen ist ein vielversprechender Ansatz, um die Sicherheit von LLMs zu verbessern, indem unerwünschtes Wissen aus dem Modell entfernt wird. Allerdings leiden vorherrschende gradientenbasierte Verlernmethoden unter Problemen wie hohen Rechenkosten, Hyperparameter-Instabilität, schlechter sequenzieller Verlernfähigkeit, Anfälligkeit für Wiedererlernangriffe, geringer Dateneffizienz und mangelnder Interpretierbarkeit. Während Sparse Autoencoder gut geeignet sind, diese Aspekte zu verbessern, indem sie gezieltes aktivierungsbasiertes Verlernen ermöglichen, schneiden bisherige Ansätze schlechter ab als gradientenbasierte Methoden. Diese Arbeit zeigt, dass im Gegensatz zu diesen früheren Erkenntnissen SAEs das Verlernen signifikant verbessern können, wenn sie dynamisch eingesetzt werden. Wir stellen Dynamic DAE Guardrails (DSG) vor, eine neuartige Methode für präzises Verlernen, die auf prinzipieller Merkmalsauswahl und einem dynamischen Klassifikator basiert. Unsere Experimente zeigen, dass DSG führende Verlernmethoden deutlich übertrifft und überlegene Kompromisse zwischen Vergessen und Nützlichkeit erreicht. DSG adressiert zentrale Nachteile gradientenbasierter Ansätze für das Verlernen – es bietet verbesserte Recheneffizienz und Stabilität, robuste Leistung bei sequenziellem Verlernen, stärkeren Widerstand gegen Wiedererlernangriffe, bessere Dateneffizienz einschließlich Zero-Shot-Szenarien und interpretierbareres Verlernen.

papers.title

papers.description

Seaweed-7B: Kosteneffizientes Training eines Foundation-Modells für die Videogenerierung
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Apr 11

130

GigaTok: Skalierung visueller Tokenizer auf 3 Milliarden Parameter für autoregressive Bildgenerierung
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Apr 11

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu

MineWorld: Ein Echtzeit- und Open-Source-Interaktives Weltmodell auf Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Apr 11

ByJunliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian

VLM-R1: Ein stabiles und generalisierbares R1-artiges großes Vision-Sprache-Modell
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Apr 10

ByHaozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao