Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieser technische Bericht stellt eine kosteneffiziente Strategie für das Training eines Video-Generierungs-Foundation-Modells vor. Wir präsentieren ein mittelgroßes Forschungsmodell mit etwa 7 Milliarden Parametern (7B), genannt Seaweed-7B, das von Grund auf mit 665.000 H100-GPU-Stunden trainiert wurde. Obwohl es mit moderaten Rechenressourcen trainiert wurde, zeigt Seaweed-7B eine äußerst wettbewerbsfähige Leistung im Vergleich zu zeitgenössischen Video-Generierungsmodellen mit deutlich größerem Umfang. Designentscheidungen sind besonders entscheidend in einem ressourcenbeschränkten Umfeld. Dieser technische Bericht hebt die wesentlichen Designentscheidungen hervor, die die Leistung des mittelgroßen Diffusionsmodells verbessern. Empirisch machen wir zwei Beobachtungen: (1) Seaweed-7B erreicht eine Leistung, die vergleichbar ist oder sogar größere Modelle übertrifft, die mit erheblich mehr GPU-Ressourcen trainiert wurden, und (2) unser Modell, das eine starke Generalisierungsfähigkeit aufweist, kann effektiv über eine breite Palette von Downstream-Anwendungen angepasst werden, entweder durch leichtgewichtiges Fine-Tuning oder durch weiteres Training. Besuchen Sie die Projektseite unter https://seaweed.video/.
Bei der autoregressiven (AR) Bildgenerierung komprimieren visuelle Tokenizer Bilder in kompakte diskrete latente Tokens, was ein effizientes Training nachgelagerter autoregressiver Modelle für die visuelle Generierung durch Next-Token-Vorhersage ermöglicht. Während die Skalierung visueller Tokenizer die Bildrekonstruktionsqualität verbessert, verschlechtert sie oft die nachgelagerte Generierungsqualität – eine Herausforderung, die in der bestehenden Literatur nicht ausreichend behandelt wird. Um dies zu beheben, stellen wir GigaTok vor, den ersten Ansatz, der gleichzeitig die Bildrekonstruktion, Generierung und Repräsentationslernfähigkeit bei der Skalierung visueller Tokenizer verbessert. Wir identifizieren die zunehmende Komplexität des latenten Raums als den Schlüsselfaktor hinter dem Rekonstruktions- vs. Generierungs-Dilemma. Um dies zu mildern, schlagen wir eine semantische Regularisierung vor, die die Merkmale des Tokenizers mit semantisch konsistenten Merkmalen eines vortrainierten visuellen Encoders ausrichtet. Diese Einschränkung verhindert eine übermäßige Komplexität des latenten Raums während der Skalierung und führt zu konsistenten Verbesserungen sowohl in der Rekonstruktion als auch in der nachgelagerten autoregressiven Generierung. Aufbauend auf der semantischen Regularisierung untersuchen wir drei Schlüsselpraktiken für die Skalierung von Tokenizern: (1) die Verwendung von 1D-Tokenizern für bessere Skalierbarkeit, (2) die Priorisierung der Decoder-Skalierung bei der Erweiterung von Encoder und Decoder und (3) den Einsatz von Entropieverlust zur Stabilisierung des Trainings für Tokenizer im Milliardenmaßstab. Durch die Skalierung auf 3 Milliarden Parameter erreicht GigaTok Spitzenleistungen in der Rekonstruktion, der nachgelagerten AR-Generierung und der Qualität der nachgelagerten AR-Repräsentation.
Weltmodellierung ist eine entscheidende Aufgabe, um intelligenten Agenten zu ermöglichen, effektiv mit Menschen zu interagieren und in dynamischen Umgebungen zu operieren. In dieser Arbeit schlagen wir MineWorld vor, ein Echtzeit-interaktives Weltmodell auf Basis von Minecraft, einem offenen Sandbox-Spiel, das häufig als Testumgebung für die Weltmodellierung genutzt wird. MineWorld wird von einem visuell-aktionsbasierten autoregressiven Transformer angetrieben, der gepaarte Spielszenen und entsprechende Aktionen als Eingabe erhält und daraus resultierende neue Szenen nach den Aktionen generiert. Konkret transformieren wir visuelle Spielszenen und Aktionen mithilfe eines Bild-Tokenizers und eines Aktions-Tokenizers in diskrete Token-IDs und bilden die Modelleingabe durch die Verkettung der beiden Arten von IDs in abwechselnder Reihenfolge. Das Modell wird dann mit der Vorhersage des nächsten Tokens trainiert, um sowohl reichhaltige Repräsentationen der Spielzustände als auch die Bedingungen zwischen Zuständen und Aktionen gleichzeitig zu erlernen. Bei der Inferenz entwickeln wir einen neuartigen parallelen Dekodierungsalgorithmus, der die räumlich redundanten Tokens in jedem Frame gleichzeitig vorhersagt, wodurch Modelle unterschiedlicher Größen 4 bis 7 Frames pro Sekunde generieren und Echtzeit-Interaktionen mit Spielern ermöglichen. In der Evaluation schlagen wir neue Metriken vor, die nicht nur die visuelle Qualität, sondern auch die Fähigkeit zur Aktionsfolge bei der Generierung neuer Szenen bewerten, was für ein Weltmodell entscheidend ist. Unsere umfassende Evaluation zeigt die Wirksamkeit von MineWorld, das state-of-the-art, auf Diffusion basierende Open-Source-Weltmodelle deutlich übertrifft. Der Code und das Modell wurden veröffentlicht.
Kürzlich hat DeepSeek R1 gezeigt, dass Reinforcement Learning (RL) die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung durch ein einfaches, aber effektives Design erheblich verbessern kann. Der Kern von R1 liegt in seiner regelbasierten Belohnungsformulierung, die Aufgaben mit deterministischen Ground-Truth-Antworten nutzt, um eine präzise und stabile Belohnungsberechnung zu ermöglichen. Im visuellen Bereich beobachten wir ähnlich, dass eine Vielzahl von Aufgaben zum visuellen Verständnis von Natur aus mit klar definierten Ground-Truth-Annotationen ausgestattet sind. Diese Eigenschaft macht sie natürlich kompatibel mit regelbasierten Belohnungsmechanismen. Motiviert durch diese Beobachtung untersuchen wir die Erweiterung von R1-ähnlichem Reinforcement Learning auf Vision-Language Models (VLMs), mit dem Ziel, deren visuelle Schlussfolgerungsfähigkeiten zu verbessern. Zu diesem Zweck entwickeln wir VLM-R1, ein spezielles Framework, das darauf abzielt, RL zu nutzen, um die Leistung von VLMs bei allgemeinen Vision-Language-Aufgaben zu steigern. Mit diesem Framework untersuchen wir weiterhin die Machbarkeit der Anwendung von RL im visuellen Bereich. Experimentelle Ergebnisse zeigen, dass das RL-basierte Modell nicht nur wettbewerbsfähige Leistungen bei Aufgaben zum visuellen Verständnis erbringt, sondern auch die Generalisierungsfähigkeit von Supervised Fine-Tuning (SFT) übertrifft. Darüber hinaus führen wir umfassende Ablationsstudien durch, die eine Reihe bemerkenswerter Erkenntnisse aufdecken, darunter das Auftreten von Reward Hacking bei der Objekterkennung, das Auftreten des „OD Aha-Moments“, die Auswirkungen der Qualität der Trainingsdaten und das Skalierungsverhalten von RL bei verschiedenen Modellgrößen. Durch diese Analysen möchten wir das Verständnis vertiefen, wie Reinforcement Learning die Fähigkeiten von Vision-Language-Modellen verbessert, und wir hoffen, dass unsere Erkenntnisse und Open-Source-Beiträge den Fortschritt in der Vision-Language-RL-Community weiter unterstützen werden. Unser Code und Modell sind unter https://github.com/om-ai-lab/VLM-R1 verfügbar.
Natural Language to SQL (NL2SQL) ermöglicht intuitive Interaktionen mit Datenbanken, indem natürliche Sprachabfragen in strukturierte SQL-Anweisungen umgewandelt werden. Trotz jüngster Fortschritte bei der Verbesserung der Mensch-Computer-Interaktion in Datenbankanwendungen bestehen weiterhin erhebliche Herausforderungen, insbesondere in Bezug auf die Inferenzleistung in komplexen Szenarien mit Multi-Table-Joins und verschachtelten Abfragen. Aktuelle Methoden nutzen hauptsächlich Supervised Fine-Tuning (SFT), um das NL2SQL-Modell zu trainieren, was die Anpassungsfähigkeit und Interpretierbarkeit in neuen Umgebungen (z. B. Finanzen und Gesundheitswesen) einschränken kann. Um die Reasoning-Leistung des NL2SQL-Modells in den oben genannten komplexen Situationen zu verbessern, führen wir SQL-R1 ein, ein neuartiges NL2SQL-Reasoning-Modell, das mit Reinforcement-Learning (RL)-Algorithmen trainiert wird. Wir entwerfen eine spezialisierte RL-basierte Belohnungsfunktion, die auf NL2SQL-Aufgaben zugeschnitten ist, und diskutieren die Auswirkungen des Cold Starts auf die Effektivität des intensiven Trainings. Darüber hinaus erreichen wir eine wettbewerbsfähige Genauigkeit mit nur einer geringen Menge synthetischer NL2SQL-Daten für das augmentierte Training und untersuchen weiterhin Data Engineering für RL. In bestehenden Experimenten erreicht SQL-R1 eine Ausführungsgenauigkeit von 88,6 % bzw. 66,6 % auf den Benchmarks Spider und BIRD, wobei nur das 7B-Basismodell verwendet wird.
Jüngste Fortschritte bei generativen Modellen haben die Fähigkeiten zur Bildrestaurierung erheblich verbessert, insbesondere durch leistungsstarke Diffusionsmodelle, die eine bemerkenswerte Wiederherstellung semantischer Details und lokaler Genauigkeit bieten. Die Anwendung dieser Modelle bei ultrahohen Auflösungen steht jedoch vor einem kritischen Kompromiss zwischen Qualität und Effizienz, der auf den rechenintensiven Anforderungen von Langstrecken-Aufmerksamkeitsmechanismen beruht. Um dies zu adressieren, stellen wir ZipIR vor, ein neuartiges Framework, das Effizienz, Skalierbarkeit und Langstreckenmodellierung für die Restaurierung hochauflösender Bilder verbessert. ZipIR verwendet eine stark komprimierte latente Darstellung, die das Bild um das 32-fache komprimiert, wodurch die Anzahl der räumlichen Token effektiv reduziert wird und die Verwendung von hochkapazitiven Modellen wie dem Diffusion Transformer (DiT) ermöglicht wird. Zu diesem Zweck schlagen wir ein Latent Pyramid VAE (LP-VAE)-Design vor, das den latenten Raum in Subbänder strukturiert, um das Diffusionstraining zu erleichtern. ZipIR, das auf Vollbildern mit einer Auflösung von bis zu 2K trainiert wurde, übertrifft bestehende diffusionsbasierte Methoden und bietet unübertroffene Geschwindigkeit und Qualität bei der Restaurierung hochauflösender Bilder aus stark degradierten Eingaben.
Wir stellen PixelFlow vor, eine Familie von Bildgenerierungsmodellen, die direkt im Rohpixelraum arbeiten, im Gegensatz zu den vorherrschenden Modellen im latenten Raum. Dieser Ansatz vereinfacht den Bildgenerierungsprozess, indem er die Notwendigkeit eines vortrainierten Variational Autoencoders (VAE) eliminiert und das gesamte Modell end-to-end trainierbar macht. Durch effiziente Kaskadenflussmodellierung erreicht PixelFlow erschwingliche Rechenkosten im Pixelraum. Es erzielt einen FID-Wert von 1,98 auf dem 256x256 ImageNet-Klassenerkennungs-Benchmark für die bedingte Bildgenerierung. Die qualitativen Text-zu-Bild-Ergebnisse zeigen, dass PixelFlow in Bezug auf Bildqualität, Kreativität und semantische Kontrolle hervorragend abschneidet. Wir hoffen, dass dieses neue Paradigma neue Möglichkeiten für die nächste Generation von visuellen Generierungsmodellen eröffnet und inspiriert. Code und Modelle sind unter https://github.com/ShoufaChen/PixelFlow verfügbar.
Mit dem rasanten Fortschritt von 2D-Generierungsmodellen hat die Bewahrung der Subjektidentität bei gleichzeitiger Ermöglichung vielfältiger Bearbeitungen einen zentralen Forschungsfokus eingenommen. Bestehende Methoden stehen typischerweise vor inhärenten Zielkonflikten zwischen Identitätserhalt und personalisierter Manipulation. Wir stellen FlexIP vor, ein neuartiges Framework, das diese Ziele durch zwei dedizierte Komponenten entkoppelt: einen Personalisierungsadapter für stilistische Manipulation und einen Erhaltungsadapter für die Identitätsbewahrung. Durch die explizite Integration beider Steuerungsmechanismen in das Generierungsmodell ermöglicht unser Framework eine flexible parametrisierte Steuerung während der Inferenz durch dynamische Anpassung des Gewichtsadapters. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Leistungsgrenzen konventioneller Methoden durchbricht und eine überlegene Identitätsbewahrung bei gleichzeitiger Unterstützung vielfältigerer personalisierter Generierungsfähigkeiten erreicht (Projektseite: https://flexip-tech.github.io/flexip/).
Wir stellen ein System vor, das Multimodale LLMs (MLLMs) verwendet, um eine große Datenbank mit zig Millionen Bildern, die zu verschiedenen Zeitpunkten aufgenommen wurden, zu analysieren, mit dem Ziel, Muster in zeitlichen Veränderungen zu entdecken. Insbesondere möchten wir häufig gemeinsam auftretende Veränderungen („Trends“) in einer Stadt über einen bestimmten Zeitraum erfassen. Im Gegensatz zu früheren visuellen Analysen beantwortet unsere Analyse offene Fragen (z. B. „Welche Arten von Veränderungen treten in der Stadt häufig auf?“) ohne vorgegebene Zielobjekte oder Trainingslabels. Diese Eigenschaften machen bisherige lernbasierte oder unüberwachte visuelle Analysetools ungeeignet. Wir identifizieren MLLMs als neuartiges Werkzeug aufgrund ihrer Fähigkeit zum offenen semantischen Verständnis. Allerdings sind unsere Datensätze vier Größenordnungen zu groß, um sie als Kontext in ein MLLM einzugeben. Daher führen wir ein Bottom-up-Verfahren ein, das das massive Problem der visuellen Analyse in besser handhabbare Teilprobleme zerlegt. Wir entwerfen sorgfältig MLLM-basierte Lösungen für jedes Teilproblem. Während der Experimente und Ablationsstudien mit unserem System stellen wir fest, dass es die Baselines deutlich übertrifft und in der Lage ist, interessante Trends aus Bildern großer Städte zu entdecken (z. B. „Einrichtung von Außengastronomie“, „Überführung wurde blau gestrichen“ usw.). Weitere Ergebnisse und interaktive Demos finden Sie unter https://boyangdeng.com/visual-chronicles.
Wir schlagen ein neues Problem vor, In-2-4D, für die generative 4D (d.h. 3D + Bewegung) Inbetweening aus einer minimalistischen Eingabekonfiguration: zwei Einzelbilder, die ein Objekt in zwei verschiedenen Bewegungszuständen erfassen. Gegeben zwei Bilder, die den Start- und Endzustand eines Objekts in Bewegung darstellen, ist unser Ziel, die Bewegung in 4D zu generieren und zu rekonstruieren. Wir verwenden ein Video-Interpolationsmodell, um die Bewegung vorherzusagen, aber große Bild-zu-Bild-Bewegungen können zu mehrdeutigen Interpretationen führen. Um dies zu überwinden, setzen wir einen hierarchischen Ansatz ein, um Keyframes zu identifizieren, die visuell nahe an den Eingabezuständen liegen und signifikante Bewegung zeigen, und erzeugen dann glatte Fragmente zwischen ihnen. Für jedes Fragment konstruieren wir die 3D-Darstellung des Keyframes mithilfe von Gaussian Splatting. Die zeitlichen Frames innerhalb des Fragments leiten die Bewegung und ermöglichen deren Transformation in dynamische Gaussians durch ein Deformationsfeld. Um die zeitliche Konsistenz zu verbessern und die 3D-Bewegung zu verfeinern, erweitern wir die Selbstaufmerksamkeit der Multi-View-Diffusion über Zeitschritte und wenden eine Regularisierung der starren Transformation an. Schließlich fügen wir die unabhängig generierten 3D-Bewegungssegmente durch Interpolation der Randdeformationsfelder zusammen und optimieren sie, um sie mit dem leitenden Video abzugleichen, wodurch glatte und flimmerfreie Übergänge sichergestellt werden. Durch umfangreiche qualitative und quantitative Experimente sowie eine Benutzerstudie zeigen wir die Wirksamkeit unserer Methode und ihrer Komponenten. Die Projektseite ist verfügbar unter https://in-2-4d.github.io/.
Trotz hoher Benchmark-Ergebnisse scheitern Large Language Models (LLMs) oft an einfachen Problemen, was eine kritische Frage aufwirft: Lernen LLMs mathematische Prinzipien oder merken sie sich lediglich Muster? Anstatt zunehmend komplexe Benchmarks wie in jüngsten Arbeiten zu entwerfen, untersuchen wir dies anhand der elementaren Addition zweier Ganzzahlen (0 bis 2^{64}) und prüfen zwei Kernmerkmale: Kommutativität (A+B=B+A) und kompositionelle Generalisierung (über isomorphe symbolische Abbildungen, z. B. 7 → y). Während state-of-the-art LLMs bei numerischer Addition eine Genauigkeit von 73,8–99,8 % erreichen, bricht die Leistung bei symbolischer Abbildung auf ≤7,5 % ein, was auf ein Scheitern bei der Generalisierung gelernte Regeln hinweist. Nicht-monotone Leistungsskalierung mit der Ziffernanzahl und häufige Verstöße gegen die Kommutativität (über 1.700 Fälle von A+B ≠ B+A) untermauern dies weiter. Die explizite Angabe von Additionsregeln verschlechtert die Leistung im Durchschnitt um 81,2 %, während Selbstbeschreibungen die Basisgenauigkeit beibehalten, was darauf hindeutet, dass die arithmetische Verarbeitung von LLMs nicht mit menschlich definierten Prinzipien übereinstimmt. Unsere Ergebnisse zeigen, dass aktuelle LLMs eher auf Mustererkennung als auf echtes Regelverständnis angewiesen sind, was architektonische Grenzen und die Notwendigkeit neuer Ansätze für echtes mathematisches Denken verdeutlicht.
Vortrainierte Transformer-Encoder-Modelle wie DeBERTaV3 und ModernBERT führen architektonische Fortschritte ein, die darauf abzielen, Effizienz und Leistung zu verbessern. Obwohl die Autoren von ModernBERTover DeBERTaV3 auf mehreren Benchmarks eine verbesserte Leistung berichten, erschweren das Fehlen offengelegter Trainingsdaten und der Mangel an Vergleichen mit einem gemeinsamen Datensatz die Bestimmung, ob diese Gewinne auf architektonische Verbesserungen oder Unterschiede in den Trainingsdaten zurückzuführen sind. In dieser Arbeit führen wir eine kontrollierte Studie durch, indem wir ModernBERT auf demselben Datensatz wie CamemBERTaV2, einem französischen DeBERTaV3-Modell, vortrainieren, um den Effekt des Modelldesigns zu isolieren. Unsere Ergebnisse zeigen, dass die vorherige Modellgeneration in Bezug auf Stichprobeneffizienz und Gesamtleistung auf Benchmarks überlegen bleibt, wobei der Hauptvorteil von ModernBERT in der schnelleren Trainings- und Inferenzgeschwindigkeit liegt. Dennoch bietet das neu vorgeschlagene Modell im Vergleich zu früheren Modellen wie BERT und RoBERTa weiterhin bedeutende architektonische Verbesserungen. Zusätzlich beobachten wir, dass hochwertige Vortrainingsdaten die Konvergenz beschleunigen, aber die Endleistung nicht signifikant verbessern, was auf eine mögliche Sättigung der Benchmarks hindeutet. Diese Erkenntnisse unterstreichen die Bedeutung der Trennung von Vortrainingsdaten und architektonischen Innovationen bei der Bewertung von Transformer-Modellen.
Retrieval-Augmented Generation (RAG)-Modelle zeichnen sich in wissensintensiven Aufgaben aus, insbesondere unter Few-Shot-Learning-Bedingungen. Wir stellen CoRAG vor, ein Framework, das RAG auf kollaborative Umgebungen erweitert, in denen Clients gemeinsam ein geteiltes Modell unter Verwendung eines kollaborativen Passagen-Speichers trainieren. Um CoRAG zu evaluieren, führen wir CRAB ein, einen Benchmark für kollaboratives homogenes Open-Domain Question Answering. Unsere Experimente zeigen, dass CoRAG in ressourcenarmen Szenarien sowohl parametrische kollaborative Lernmethoden als auch lokal trainierte RAG-Modelle durchweg übertrifft. Weitere Analysen verdeutlichen die entscheidende Bedeutung relevanter Passagen im gemeinsamen Speicher, die überraschenden Vorteile der Einbindung irrelevanter Passagen sowie das Potenzial von Hard Negatives, die Leistung negativ zu beeinflussen. Dies führt zu einer neuen Überlegung im kollaborativen RAG: den Abwägungen zwischen der Nutzung einer kollektiv angereicherten Wissensbasis und dem potenziellen Risiko der Einbindung schädlicher Passagen anderer Clients. Unsere Ergebnisse unterstreichen die Machbarkeit von CoRAG, heben aber auch zentrale Gestaltungsherausforderungen und vielversprechende Ansätze für zukünftige Forschung hervor.
Jüngste Fortschritte in Text-zu-Video (T2V)-Diffusionsmodellen haben die visuelle Qualität der generierten Videos erheblich verbessert. Dennoch fällt es selbst aktuellen T2V-Modellen schwer, Textbeschreibungen präzise zu folgen, insbesondere wenn die Eingabe eine genaue Steuerung von räumlichen Anordnungen oder Objektbahnen erfordert. Eine aktuelle Forschungsrichtung nutzt Layout-Guidance für T2V-Modelle, die eine Feinabstimmung oder iterative Manipulation der Aufmerksamkeitskarte während der Inferenzzeit erfordern. Dies erhöht den Speicherbedarf erheblich, was die Verwendung eines großen T2V-Modells als Backbone erschwert. Um dies zu adressieren, stellen wir Video-MSG vor, eine trainingsfreie Guidance-Methode für die T2V-Generierung, die auf multimodaler Planung und strukturierter Rauschinitialisierung basiert. Video-MSG besteht aus drei Schritten: In den ersten beiden Schritten erstellt Video-MSG einen Video-Sketch, einen feingranularen räumlich-zeitlichen Plan für das endgültige Video, der Hintergrund, Vordergrund und Objektbahnen in Form von Entwurfsvideobildern spezifiziert. Im letzten Schritt leitet Video-MSG ein nachgeschaltetes T2V-Diffusionsmodell mit dem Video-Sketch durch Rauschinversion und Entrauschen an. Bemerkenswerterweise benötigt Video-MSG weder eine Feinabstimmung noch eine Aufmerksamkeitsmanipulation mit zusätzlichem Speicher während der Inferenzzeit, was die Verwendung großer T2V-Modelle erleichtert. Video-MSG zeigt seine Wirksamkeit bei der Verbesserung der Textausrichtung mit mehreren T2V-Backbones (VideoCrafter2 und CogVideoX-5B) auf gängigen T2V-Generierungs-Benchmarks (T2VCompBench und VBench). Wir bieten umfassende Ablationsstudien zu Rauschinversionsraten, verschiedenen Hintergrundgeneratoren, Hintergrundobjekterkennung und Vordergrundobjektsegmentierung.
In der medizinischen Bildgebung besteht die größte Herausforderung darin, groß angelegte, annotierte Datensätze zu sammeln, was auf Datenschutzbedenken, logistische Schwierigkeiten und hohe Labeling-Kosten zurückzuführen ist. In dieser Arbeit präsentieren wir UK Biobank Organs and Bones (UKBOB), den größten annotierten Datensatz von Körperorganen, der 51.761 3D-MRT-Proben (entsprechend 17,9 Millionen 2D-Bildern) und mehr als 1,37 Milliarden 2D-Segmentierungsmasken von 72 Organen umfasst, die alle auf dem UK Biobank MRT-Datensatz basieren. Wir nutzen automatisches Labeling, führen eine automatisierte Label-Bereinigungspipeline mit organspezifischen Filtern ein und annotieren manuell eine Teilmenge von 300 MRTs mit 11 abdominalen Klassen, um die Qualität zu validieren (bezeichnet als UKBOB-manual). Dieser Ansatz ermöglicht es, die Datensatzsammlung zu skalieren, während das Vertrauen in die Labels erhalten bleibt. Wir bestätigen die Gültigkeit der Labels weiterhin, indem wir die Null-Shot-Generalisierung von trainierten Modellen auf dem gefilterten UKBOB auf andere kleine annotierte Datensätze aus ähnlichen Domänen (z. B. abdominale MRT) demonstrieren. Um den Effekt von verrauschten Labels weiter zu mildern, schlagen wir eine neue Methode namens Entropy Test-time Adaptation (ETTA) vor, um die Segmentierungsausgabe zu verfeinern. Wir verwenden UKBOB, um ein Foundation-Modell, Swin-BOB, für die 3D-Segmentierung medizinischer Bilder basierend auf der Swin-UNetr-Architektur zu trainieren, und erzielen state-of-the-art Ergebnisse in mehreren Benchmarks der 3D-medizinischen Bildgebung, einschließlich der BRATS-Hirn-MRT-Tumor-Herausforderung (mit einer Verbesserung von 0,4 %) und dem BTCV-abdominalen CT-Scan-Benchmark (mit einer Verbesserung von 1,3 %). Die vortrainierten Modelle und der Code sind unter https://emmanuelleb985.github.io/ukbob verfügbar, und die gefilterten Labels werden mit der UK Biobank veröffentlicht.
Die Bearbeitung von 3D-Grafiken ist in Anwendungen wie der Filmproduktion und dem Spieldesign von entscheidender Bedeutung, bleibt jedoch ein zeitaufwändiger Prozess, der hochspezialisierte Fachkenntnisse erfordert. Die Automatisierung dieses Prozesses ist herausfordernd, da die grafische Bearbeitung eine Vielzahl von Aufgaben umfasst, die jeweils unterschiedliche Fähigkeiten erfordern. In jüngster Zeit haben Vision-Language-Modelle (VLMs) als leistungsstarkes Framework für die Automatisierung des Bearbeitungsprozesses an Bedeutung gewonnen, doch ihre Entwicklung und Bewertung werden durch das Fehlen eines umfassenden Benchmarks behindert, der menschliches Wahrnehmungsvermögen erfordert und die Komplexität der Bearbeitung in der realen Welt widerspiegelt. In dieser Arbeit präsentieren wir BlenderGym, den ersten umfassenden VLM-System-Benchmark für die Bearbeitung von 3D-Grafiken. BlenderGym bewertet VLM-Systeme anhand von codebasierten 3D-Rekonstruktionsaufgaben. Wir evaluieren proprietäre und Open-Source-VLM-Systeme und stellen fest, dass selbst das modernste VLM-System mit Aufgaben zu kämpfen hat, die für menschliche Blender-Nutzer relativ einfach sind. Durch BlenderGym ermöglicht, untersuchen wir, wie Inferenz-Skalierungstechniken die Leistung von VLMs bei Grafikbearbeitungsaufgaben beeinflussen. Bemerkenswerterweise zeigen unsere Ergebnisse, dass der Verifizierer, der zur Steuerung der Skalierung der Generierung verwendet wird, selbst durch Inferenz-Skalierung verbessert werden kann, was aktuelle Erkenntnisse zur Inferenz-Skalierung der LLM-Generierung bei Codierungs- und Mathematikaufgaben ergänzt. Wir zeigen weiterhin, dass Inferenz-Rechenleistung nicht gleichmäßig effektiv ist und durch eine strategische Verteilung zwischen Generierung und Verifizierung optimiert werden kann.
Diese Studie stellt den Latent Diffusion Autoencoder (LDAE) vor, ein neuartiges Encoder-Decoder-Framework auf Diffusionsbasis für effizientes und bedeutungsvolles unüberwachtes Lernen in der medizinischen Bildgebung, mit Fokus auf die Alzheimer-Krankheit (AD) unter Verwendung von Gehirn-MRT-Daten aus der ADNI-Datenbank als Fallstudie. Im Gegensatz zu herkömmlichen Diffusions-Autoencodern, die im Bildraum arbeiten, wendet der LDAE den Diffusionsprozess in einer komprimierten latenten Repräsentation an, was die Recheneffizienz verbessert und das Lernen von 3D-medizinischen Bildrepräsentationen handhabbar macht. Zur Validierung des vorgeschlagenen Ansatzes untersuchen wir zwei Schlüsselhypothesen: (i) Der LDAE erfasst effektiv bedeutungsvolle semantische Repräsentationen in 3D-Gehirn-MRTs, die mit AD und Alterung assoziiert sind, und (ii) der LDAE erreicht eine hochwertige Bildgenerierung und -rekonstruktion bei gleichzeitiger Recheneffizienz. Die experimentellen Ergebnisse unterstützen beide Hypothesen: (i) Linear-Probe-Auswertungen zeigen vielversprechende diagnostische Leistungen für AD (ROC-AUC: 90%, ACC: 84%) und Altersvorhersage (MAE: 4,1 Jahre, RMSE: 5,2 Jahre); (ii) die gelernten semantischen Repräsentationen ermöglichen Attributmanipulationen, die anatomisch plausible Modifikationen erzeugen; (iii) Semantische Interpolationsexperimente zeigen eine starke Rekonstruktion fehlender Scans mit einem SSIM von 0,969 (MSE: 0,0019) für eine Lücke von 6 Monaten. Selbst für längere Lücken (24 Monate) behält das Modell eine robuste Leistung bei (SSIM > 0,93, MSE < 0,004), was auf die Fähigkeit hinweist, zeitliche Fortschrittstrends zu erfassen; (iv) im Vergleich zu herkömmlichen Diffusions-Autoencodern erhöht der LDAE den Inferenzdurchsatz signifikant (20x schneller) und verbessert gleichzeitig die Rekonstruktionsqualität. Diese Ergebnisse positionieren den LDAE als ein vielversprechendes Framework für skalierbare medizinische Bildgebungsanwendungen, mit dem Potenzial, als Grundlagenmodell für die medizinische Bildanalyse zu dienen. Code verfügbar unter https://github.com/GabrieleLozupone/LDAE.
Jüngste Fortschritte in der Inferenzzeitberechnung haben die Leistung bei komplexen Aufgaben durch die Erzeugung langer Gedankenketten (CoTs) mithilfe von Large Reasoning Models (LRMs) erheblich verbessert. Diese gesteigerte Genauigkeit geht jedoch mit einer hohen Inferenzlatenz einher, die auf die Länge der generierten Argumentationssequenzen und die autoregressive Natur der Dekodierung zurückzuführen ist. Unser zentraler Ansatz zur Bewältigung dieser Overheads besteht darin, dass die LRM-Inferenz und die darin eingebettete Argumentation hochgradig tolerant gegenüber Approximationen sind: Komplexe Aufgaben werden typischerweise in einfachere Schritte unterteilt, von denen jeder seinen Nutzen auf der Grundlage der semantischen Einsicht bietet, die er für nachfolgende Schritte liefert, und nicht aufgrund der exakten Tokens, die er generiert. Dementsprechend stellen wir SpecReason vor, ein System, das die LRM-Inferenz automatisch beschleunigt, indem es ein leichtgewichtiges Modell verwendet, um (spekulativ) einfachere Zwischenschritte der Argumentation durchzuführen, und das teure Basismodell nur zur Bewertung (und potenziellen Korrektur) der spekulierten Ausgaben reserviert. Wichtig ist, dass SpecReason den Fokus auf die Ausnutzung der semantischen Flexibilität von Denk-Tokens legt, um die Genauigkeit der Endantwort zu bewahren, was komplementär zu früheren Spekulationstechniken ist, insbesondere zum spekulativen Dekodieren, das eine Token-Äquivalenz in jedem Schritt erfordert. Über eine Vielzahl von Argumentationsbenchmarks hinweg erreicht SpecReason eine Beschleunigung um das 1,5- bis 2,5-fache gegenüber der herkömmlichen LRM-Inferenz und verbessert die Genauigkeit um 1,0-9,9\%. Im Vergleich zum spekulativen Dekodieren ohne SpecReason ergibt ihre Kombination eine zusätzliche Latenzreduktion von 19,4-44,2\%. Wir stellen SpecReason unter https://github.com/ruipeterpan/specreason als Open-Source zur Verfügung.
Wir stellen InteractVLM vor, eine neuartige Methode zur Schätzung von 3D-Kontaktpunkten auf menschlichen Körpern und Objekten aus einzelnen Bildern in natürlichen Umgebungen, die eine präzise 3D-Rekonstruktion von Mensch-Objekt-Interaktionen ermöglicht. Dies ist aufgrund von Verdeckungen, Tiefenunschärfen und der großen Vielfalt an Objektformen eine Herausforderung. Bisherige Methoden stützen sich auf 3D-Kontaktannotationen, die mit teuren Motion-Capture-Systemen oder aufwendiger manueller Beschriftung gesammelt wurden, was die Skalierbarkeit und Generalisierbarkeit einschränkt. Um dies zu überwinden, nutzt InteractVLM das breite visuelle Wissen großer Vision-Language-Modelle (VLMs), die mit begrenzten 3D-Kontaktdaten feinabgestimmt werden. Die direkte Anwendung dieser Modelle ist jedoch nicht trivial, da sie nur in 2D argumentieren, während Mensch-Objekt-Kontakte inhärent 3D sind. Daher führen wir ein neuartiges Render-Localize-Lift-Modul ein, das: (1) 3D-Körper- und Objektoberflächen über Multi-View-Rendering in den 2D-Raum einbettet, (2) ein neuartiges Multi-View-Lokalisierungsmodell (MV-Loc) trainiert, um Kontakte in 2D abzuleiten, und (3) diese in 3D überführt. Zusätzlich schlagen wir eine neue Aufgabe namens Semantic Human Contact Estimation vor, bei der menschliche Kontaktvorhersagen explizit auf Objektsemantik basieren, was eine reichhaltigere Interaktionsmodellierung ermöglicht. InteractVLM übertrifft bestehende Arbeiten in der Kontaktschätzung und erleichtert auch die 3D-Rekonstruktion aus einem Bild in natürlicher Umgebung. Code und Modelle sind verfügbar unter https://interactvlm.is.tue.mpg.de.
Maschinelles Verlernen ist ein vielversprechender Ansatz, um die Sicherheit von LLMs zu verbessern, indem unerwünschtes Wissen aus dem Modell entfernt wird. Allerdings leiden vorherrschende gradientenbasierte Verlernmethoden unter Problemen wie hohen Rechenkosten, Hyperparameter-Instabilität, schlechter sequenzieller Verlernfähigkeit, Anfälligkeit für Wiedererlernangriffe, geringer Dateneffizienz und mangelnder Interpretierbarkeit. Während Sparse Autoencoder gut geeignet sind, diese Aspekte zu verbessern, indem sie gezieltes aktivierungsbasiertes Verlernen ermöglichen, schneiden bisherige Ansätze schlechter ab als gradientenbasierte Methoden. Diese Arbeit zeigt, dass im Gegensatz zu diesen früheren Erkenntnissen SAEs das Verlernen signifikant verbessern können, wenn sie dynamisch eingesetzt werden. Wir stellen Dynamic DAE Guardrails (DSG) vor, eine neuartige Methode für präzises Verlernen, die auf prinzipieller Merkmalsauswahl und einem dynamischen Klassifikator basiert. Unsere Experimente zeigen, dass DSG führende Verlernmethoden deutlich übertrifft und überlegene Kompromisse zwischen Vergessen und Nützlichkeit erreicht. DSG adressiert zentrale Nachteile gradientenbasierter Ansätze für das Verlernen – es bietet verbesserte Recheneffizienz und Stabilität, robuste Leistung bei sequenziellem Verlernen, stärkeren Widerstand gegen Wiedererlernangriffe, bessere Dateneffizienz einschließlich Zero-Shot-Szenarien und interpretierbareres Verlernen.