KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Fortschritte und Herausforderungen bei Foundation Agents: Von hirninspirierter Intelligenz zu evolutionären, kollaborativen und sicheren Systemen
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31, 2025

Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Yuheng Cheng, Suyuchen Wang, Xiaoqiang Wang, Yuyu Luo, Haibo Jin, Peiyan Zhang, Ollie Liu, Jiaqi Chen, Huan Zhang, Zhaoyang Yu, Haochen Shi, Boyan Li, Dekun Wu, Fengwei Teng, Xiaojun Jia, Jiawei Xu, Jinyu Xiang, Yizhang Lin, Tianming Liu, Tongliang Liu, Yu Su, Huan Sun, Glen Berseth, Jianyun Nie, Ian Foster, Logan Ward, Qingyun Wu, Yu Gu, Mingchen Zhuge, Xiangru Tang, Haohan Wang, Jiaxuan You, Chi Wang, Jian Pei, Qiang Yang, Xiaoliang Qi, Chenglin Wu

2937

Die Entstehung großer Sprachmodelle (LLMs) hat einen transformativen Wandel in der künstlichen Intelligenz katalysiert und den Weg für fortgeschrittene intelligente Agenten geebnet, die zu anspruchsvollem Denken, robustem Wahrnehmungsvermögen und vielseitigem Handeln in verschiedenen Domänen fähig sind. Da diese Agenten zunehmend die KI-Forschung und praktische Anwendungen vorantreiben, stellen ihre Gestaltung, Bewertung und kontinuierliche Verbesserung komplexe, vielschichtige Herausforderungen dar. Diese Übersichtsarbeit bietet einen umfassenden Überblick und verortet intelligente Agenten in einer modularen, hirninspirierten Architektur, die Prinzipien aus der Kognitionswissenschaft, Neurowissenschaft und Computerforschung integriert. Wir strukturieren unsere Untersuchung in vier miteinander verbundene Teile. Zunächst tauchen wir in die modulare Grundlage intelligenter Agenten ein, indem wir ihre kognitiven, wahrnehmungsbezogenen und operativen Module systematisch auf analoge menschliche Gehirnfunktionen abbilden und Kernkomponenten wie Gedächtnis, Weltmodellierung, Belohnungsverarbeitung und emotionsähnliche Systeme erläutern. Zweitens diskutieren wir Selbstverbesserungs- und adaptive Evolutionsmechanismen, indem wir untersuchen, wie Agenten ihre Fähigkeiten autonom verfeinern, sich an dynamische Umgebungen anpassen und kontinuierliches Lernen durch automatisierte Optimierungsparadigmen erreichen, einschließlich aufkommender AutoML- und LLM-gestützter Optimierungsstrategien. Drittens betrachten wir kollaborative und evolutionäre Multi-Agenten-Systeme, indem wir die kollektive Intelligenz erforschen, die aus den Interaktionen, der Zusammenarbeit und den gesellschaftlichen Strukturen von Agenten hervorgeht, und Parallelen zu menschlichen Sozialdynamiken aufzeigen. Schließlich gehen wir auf die kritische Notwendigkeit ein, sichere, geschützte und nützliche KI-Systeme zu entwickeln, wobei wir intrinsische und extrinsische Sicherheitsbedrohungen, ethische Ausrichtung, Robustheit und praktische Strategien zur Risikominderung betonen, die für den vertrauenswürdigen Einsatz in der realen Welt erforderlich sind.

ZClip: Adaptive Spike-Minderung für das Pre-Training von LLMs
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3, 2025

Abhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

892

Das Training großer Sprachmodelle (LLMs) birgt zahlreiche Herausforderungen, darunter Gradienteninstabilität und Verlustspitzen. Diese Phänomene können zu katastrophaler Divergenz führen, was kostspielige Wiederherstellungen von Checkpoints und das Überspringen von Datenbatches erforderlich macht. Traditionelle Gradienten-Clipping-Techniken, wie konstante oder normbasierte Methoden, können diese Probleme aufgrund ihrer Abhängigkeit von festen Schwellenwerten oder Heuristiken nicht effektiv lösen, was zu ineffizientem Lernen und häufigen manuellen Eingriffen führt. In dieser Arbeit schlagen wir ZClip vor, einen adaptiven Gradienten-Clipping-Algorithmus, der den Clipping-Schwellenwert dynamisch anhand statistischer Eigenschaften der Gradientennormen über die Zeit anpasst. Im Gegensatz zu früheren reaktiven Strategien passt sich ZClip proaktiv an die Trainingsdynamik an, ohne vorherige Annahmen über die Skalierung und die zeitliche Entwicklung der Gradientennormen zu treffen. Im Kern nutzt es z-Score-basierte Anomalieerkennung, um große Gradientenspitzen zu identifizieren und zu mildern, wodurch schädliche Verlustspitzen verhindert werden, ohne die Konvergenz anderweitig zu beeinträchtigen. Unser Code ist verfügbar unter: https://github.com/bluorion-com/ZClip.

Jenseits der Pixel: Benchmarking visueller Bearbeitung mit integrierter logischer Schlussfolgerung
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3, 2025

Xiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

692

Große Multimodalitätsmodelle (LMMs) haben bedeutende Fortschritte im Bereich des visuellen Verstehens und der Generierung erzielt, stehen jedoch weiterhin vor Herausforderungen beim Allgemeinen Visuellen Bearbeiten, insbesondere bei der Befolgung komplexer Anweisungen, der Wahrung der Erscheinungskonsistenz und der Unterstützung flexibler Eingabeformate. Um diese Lücke zu schließen, führen wir RISEBench ein, den ersten Benchmark zur Bewertung von Reasoning-Informed Visual Editing (RISE). RISEBench konzentriert sich auf vier Schlüsseltypen des logischen Denkens: Temporales, Kausales, Räumliches und Logisches Reasoning. Wir haben hochwertige Testfälle für jede Kategorie kuratiert und ein Bewertungsframework vorgeschlagen, das die Anweisungslogik, die Erscheinungskonsistenz und die visuelle Plausibilität sowohl mit menschlichen Gutachtern als auch mit einem LMM-als-Gutachter-Ansatz bewertet. Unsere Experimente zeigen, dass GPT-4o-Native zwar andere Open-Source- und proprietäre Modelle deutlich übertrifft, selbst dieses Spitzensystem jedoch mit logischen Denkaufgaben zu kämpfen hat, was einen Bereich aufzeigt, der noch unzureichend erforscht ist. Als erste Initiative zielt RISEBench darauf ab, grundlegende Einblicke in das reasoning-bewusste visuelle Bearbeiten zu bieten und zukünftige Forschung anzuregen. Obwohl sich das Projekt noch in einem frühen Stadium befindet, sind wir bestrebt, den Benchmark kontinuierlich zu erweitern und zu verfeinern, um umfassendere, zuverlässigere und skalierbarere Bewertungen der nächsten Generation multimodaler Systeme zu unterstützen. Unser Code und unsere Daten werden unter https://github.com/PhoenixZ810/RISEBench veröffentlicht.

GPT-ImgEval: Ein umfassender Benchmark zur Diagnose von GPT4o in der Bildgenerierung
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3, 2025

Zhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

573

Die jüngsten Durchbrüche in OpenAIs GPT4o-Modell haben überraschend gute Fähigkeiten in der Bildgenerierung und -bearbeitung demonstriert, was zu erheblicher Begeisterung in der Community geführt hat. Dieser technische Bericht präsentiert den ersten Evaluierungs-Benchmark (genannt GPT-ImgEval), der die Leistung von GPT-4o in drei kritischen Dimensionen quantitativ und qualitativ untersucht: (1) Generierungsqualität, (2) Bearbeitungsfähigkeit und (3) semantische Synthese auf Basis von Weltwissen. In allen drei Aufgaben zeigt GPT-4o eine starke Leistung und übertrifft bestehende Methoden sowohl in der Kontrolle der Bildgenerierung als auch in der Ausgabequalität deutlich, während es gleichzeitig außergewöhnliche Fähigkeiten im Wissensschluss demonstriert. Darüber hinaus schlagen wir basierend auf den von GPT-4o generierten Daten einen klassifikationsmodellbasierten Ansatz vor, um die zugrunde liegende Architektur von GPT-4o zu untersuchen, wobei unsere empirischen Ergebnisse darauf hindeuten, dass das Modell aus einem autoregressiven (AR) Teil in Kombination mit einem diffusionsbasierten Kopf für die Bilddekodierung besteht, anstatt aus VAR-ähnlichen Architekturen. Wir liefern auch eine vollständige Spekulation über die Gesamtarchitektur von GPT-4o. Zusätzlich führen wir eine Reihe von Analysen durch, um spezifische Grenzen von GPT-4o und die häufig beobachteten synthetischen Artefakte in seiner Bildgenerierung zu identifizieren und zu visualisieren. Wir präsentieren auch eine vergleichende Studie zur mehrfachen Bildbearbeitung zwischen GPT-4o und Gemini 2.0 Flash und diskutieren die Sicherheitsimplikationen der Ausgaben von GPT-4o, insbesondere ihre Erkennbarkeit durch bestehende Bildforensikmodelle. Wir hoffen, dass unsere Arbeit wertvolle Einblicke bieten und einen zuverlässigen Benchmark liefern kann, um zukünftige Forschung zu leiten, Reproduzierbarkeit zu fördern und Innovationen im Bereich der Bildgenerierung und darüber hinaus zu beschleunigen. Die Codes und Datensätze, die zur Bewertung von GPT-4o verwendet wurden, sind unter https://github.com/PicoTrex/GPT-ImgEval zu finden.

JavisDiT: Gemeinsamer Audio-Video-Diffusionstransformator mit hierarchischer räumlich-zeitlicher Prioritätssynchronisation
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30, 2025

Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

574

Dieses Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der für die synchronisierte Audio-Video-Generierung (JAVG) entwickelt wurde. Basierend auf der leistungsstarken Diffusion Transformer (DiT)-Architektur ist JavisDiT in der Lage, hochwertige Audio- und Videoinhalte gleichzeitig aus offenen Benutzeranfragen zu generieren. Um eine optimale Synchronisation zu gewährleisten, führen wir einen feinkörnigen raumzeitlichen Ausrichtungsmechanismus durch einen Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator ein. Dieses Modul extrahiert sowohl globale als auch feinkörnige raumzeitliche Prioritäten, die die Synchronisation zwischen den visuellen und auditiven Komponenten steuern. Darüber hinaus schlagen wir einen neuen Benchmark, JavisBench, vor, der aus 10.140 hochwertigen, textbeschrifteten Videos mit Ton besteht, die vielfältige Szenen und komplexe reale Szenarien abdecken. Zusätzlich entwickeln wir speziell eine robuste Metrik zur Bewertung der Synchronisation zwischen generierten Audio-Video-Paaren in komplexen realen Inhalten. Experimentelle Ergebnisse zeigen, dass JavisDiT bestehende Methoden deutlich übertrifft, indem es sowohl eine hochwertige Generierung als auch eine präzise Synchronisation sicherstellt und damit einen neuen Standard für JAVG-Aufgaben setzt. Unser Code, Modell und Datensatz werden unter https://javisdit.github.io/ öffentlich zugänglich gemacht.

Skalierung zur Inferenzzeit für generalistische Belohnungsmodellierung
Inference-Time Scaling for Generalist Reward Modeling

Apr 3, 2025

Zijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

556

Reinforcement Learning (RL) wurde in großem Umfang für das Post-Training von großen Sprachmodellen (LLMs) eingesetzt. Kürzlich hat die Förderung von Denkfähigkeiten in LLMs durch RL gezeigt, dass geeignete Lernmethoden eine effektive Skalierbarkeit zur Inferenzzeit ermöglichen können. Eine zentrale Herausforderung von RL besteht darin, präzise Belohnungssignale für LLMs in verschiedenen Domänen jenseits überprüfbarer Fragen oder künstlicher Regeln zu erhalten. In dieser Arbeit untersuchen wir, wie die Belohnungsmodellierung (RM) mit mehr Inferenzrechenleistung für allgemeine Anfragen verbessert werden kann, d.h. die Skalierbarkeit zur Inferenzzeit von generalistischen RM, und darüber hinaus, wie die Effektivität der Leistungs-Rechenleistungs-Skalierung durch geeignete Lernmethoden gesteigert werden kann. Für den RM-Ansatz verwenden wir punktweise generative Belohnungsmodellierung (GRM), um Flexibilität für verschiedene Eingabetypen und Potenzial für die Skalierung zur Inferenzzeit zu ermöglichen. Für die Lernmethode schlagen wir Self-Principled Critique Tuning (SPCT) vor, um skalierbare Belohnungsgenerierungsverhalten in GRMs durch Online-RL zu fördern, um Prinzipien adaptiv und Kritiken präzise zu generieren, was zu DeepSeek-GRM-Modellen führt. Darüber hinaus verwenden wir für eine effektive Skalierung zur Inferenzzeit paralleles Sampling, um die Rechenleistungsnutzung zu erweitern, und führen ein Meta-RM ein, um den Abstimmungsprozess für eine bessere Skalierungsleistung zu leiten. Empirisch zeigen wir, dass SPCT die Qualität und Skalierbarkeit von GRMs signifikant verbessert, bestehende Methoden und Modelle in verschiedenen RM-Benchmarks ohne schwerwiegende Verzerrungen übertrifft und im Vergleich zur Skalierung zur Trainingszeit eine bessere Leistung erzielen kann. DeepSeek-GRM steht in einigen Aufgaben noch vor Herausforderungen, die wir glauben, durch zukünftige Bemühungen in generalistischen Belohnungssystemen bewältigt werden können. Die Modelle werden veröffentlicht und quelloffen gemacht.

Audio-visuell gesteuerte Videodiffusion mit maskierter selektiver Zustandsraummodellierung für die natürliche Erzeugung von sprechenden Köpfen
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3, 2025

Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

477

Die Synthese von sprechenden Köpfen ist entscheidend für virtuelle Avatare und die Mensch-Computer-Interaktion. Die meisten bestehenden Methoden sind jedoch typischerweise darauf beschränkt, Steuerung durch eine einzige primäre Modalität zu akzeptieren, was ihre praktische Nutzbarkeit einschränkt. Aus diesem Grund stellen wir ACTalker vor, ein end-to-end Video-Diffusionsframework, das sowohl die Steuerung durch mehrere Signale als auch durch ein einzelnes Signal für die Generierung von Videos sprechender Köpfe unterstützt. Für die Mehrfachsteuerung entwerfen wir eine parallele Mamba-Struktur mit mehreren Zweigen, wobei jeder Zweig ein separates Steuersignal nutzt, um spezifische Gesichtsregionen zu kontrollieren. Ein Gate-Mechanismus wird über alle Zweige hinweg angewendet, um eine flexible Steuerung der Videogenerierung zu ermöglichen. Um eine natürliche Koordination des gesteuerten Videos sowohl zeitlich als auch räumlich zu gewährleisten, verwenden wir die Mamba-Struktur, die es den Steuersignalen ermöglicht, Feature-Tokens in beiden Dimensionen in jedem Zweig zu manipulieren. Zusätzlich führen wir eine Mask-Drop-Strategie ein, die es jedem Steuersignal ermöglicht, seine entsprechende Gesichtsregion innerhalb der Mamba-Struktur unabhängig zu kontrollieren und so Steuerungskonflikte zu vermeiden. Experimentelle Ergebnisse zeigen, dass unsere Methode natürlich aussehende Gesichtsvideos erzeugt, die durch verschiedene Signale gesteuert werden, und dass die Mamba-Schicht mehrere Steuermodalitäten nahtlos und konfliktfrei integriert.

SkyReels-A2: Alles in Video-Diffusion-Transformatoren komponieren
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3, 2025

Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

373

Dieses Papier stellt SkyReels-A2 vor, ein kontrollierbares Videogenerierungsframework, das in der Lage ist, beliebige visuelle Elemente (z. B. Charaktere, Objekte, Hintergründe) in synthetisierte Videos zu integrieren, basierend auf textuellen Eingabeaufforderungen, während gleichzeitig eine strikte Konsistenz mit Referenzbildern für jedes Element gewährleistet wird. Wir bezeichnen diese Aufgabe als Elements-to-Video (E2V), deren Hauptherausforderungen in der Bewahrung der Treue jedes Referenzelements, der Sicherstellung einer kohärenten Komposition der Szene und der Erzielung natürlicher Ausgaben liegen. Um diese zu bewältigen, entwerfen wir zunächst eine umfassende Datenpipeline zur Konstruktion von Prompt-Referenz-Video-Tripeln für das Modelltraining. Anschließend schlagen wir ein neuartiges Bild-Text-Joint-Embedding-Modell vor, um Mehrfachelementdarstellungen in den Generierungsprozess einzubetten, wobei elementspezifische Konsistenz mit globaler Kohärenz und Textausrichtung ausbalanciert wird. Wir optimieren auch die Inferenzpipeline sowohl für Geschwindigkeit als auch für Ausgabestabilität. Darüber hinaus führen wir einen sorgfältig kuratierten Benchmark für die systematische Bewertung ein, d. h. A2 Bench. Experimente zeigen, dass unser Framework diverse, hochwertige Videos mit präziser Elementkontrolle generieren kann. SkyReels-A2 ist das erste Open-Source-Modell auf kommerziellem Niveau für die Generierung von E2V und schneidet im Vergleich zu fortschrittlichen Closed-Source-Kommerzmodellen günstig ab. Wir erwarten, dass SkyReels-A2 kreative Anwendungen wie Drama und virtuellen E-Commerce vorantreiben und die Grenzen der kontrollierbaren Videogenerierung erweitern wird.

WikiVideo: Artikelgenerierung aus mehreren Videos
WikiVideo: Article Generation from Multiple Videos

Apr 1, 2025

Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

373

Wir stellen die anspruchsvolle Aufgabe vor, automatisch einen hochwertigen Wikipedia-Artikel zu erstellen, der Informationen aus mehreren diversen Videos über reale Ereignisse wie Naturkatastrophen oder politische Wahlen zusammenfasst. Videos sind intuitive Quellen für retrieval-augmentierte Generierung (RAG), doch die meisten zeitgenössischen RAG-Workflows konzentrieren sich stark auf Text, und bestehende Methoden für videobasierte Zusammenfassungen beschäftigen sich eher mit dem Verständnis von Szenen auf niedriger Ebene als mit der Semantik von Ereignissen auf höherer Ebene. Um diese Lücke zu schließen, führen wir WikiVideo ein, einen Benchmark, der von Experten verfasste Artikel und dicht annotierte Videos umfasst, die Belege für die Behauptungen in den Artikeln liefern. Dies erleichtert die Integration von Videos in RAG-Pipelines und ermöglicht die Erstellung von tiefgehendem Inhalt, der auf multimodalen Quellen basiert. Darüber hinaus schlagen wir Collaborative Article Generation (CAG) vor, eine neuartige interaktive Methode zur Artikelerstellung aus mehreren Videos. CAG nutzt eine iterative Interaktion zwischen einem r1-artigen Reasoning-Modell und einem VideoLLM, um höhere Schlussfolgerungen über das Zielereignis zu ziehen, als dies mit VideoLLMs allein möglich ist, die sich auf visuelle Merkmale auf niedriger Ebene konzentrieren. Wir benchmarken state-of-the-art VideoLLMs und CAG sowohl in Oracle-Retrieval- als auch in RAG-Szenarien und stellen fest, dass CAG durchweg besser abschneidet als alternative Methoden, während es interessante Ansätze für zukünftige Arbeiten aufzeigt.

Neubewertung der Skalierung von Reinforcement Learning für Vision-Language-Modelle: Ein transparenter, von Grund auf entwickelter Rahmen und ein umfassendes Bewertungsschema
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3, 2025

Yan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

303

Reinforcement Learning (RL) hat kürzlich ein großes Potenzial bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle gezeigt und wird nun aktiv auf Vision-Language-Modelle (VLMs) ausgeweitet. Allerdings basieren bestehende RL-Anwendungen in VLMs oft auf stark angepassten Frameworks, die die Reproduzierbarkeit und Zugänglichkeit behindern, während standardisierte Evaluierungsprotokolle fehlen, was den Vergleich von Ergebnissen oder die Interpretation von Trainingsdynamiken erschwert. Diese Arbeit stellt ein transparentes, von Grund auf entwickeltes Framework für RL in VLMs vor, das einen minimalen, aber funktionalen Vier-Schritte-Pipeline bietet, der über mehrere Modelle und Datensätze validiert wurde. Zusätzlich wird ein standardisiertes Bewertungsschema vorgeschlagen, um Trainingsdynamiken und reflektives Verhalten zu bewerten. Umfangreiche Experimente zu visuellen Denkaufgaben decken wichtige empirische Erkenntnisse auf: Die Antwortlänge ist empfindlich gegenüber Zufallsinitialisierungen, Reflexion korreliert mit der Ausgabelänge, und RL übertrifft durchgängig das Supervised Fine-Tuning (SFT) in der Generalisierung, selbst bei hochwertigen Daten. Diese Erkenntnisse, zusammen mit dem vorgeschlagenen Framework, zielen darauf ab, eine reproduzierbare Basis zu schaffen und eine breitere Beteiligung an der RL-basierten VLM-Forschung zu unterstützen.

Skalierungsanalyse von verschachtelten Sprach-Text-Sprachmodellen
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3, 2025

Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

302

Bestehende Skalierungsanalysen von Sprachmodellen (Speech Language Models, SLMs) zeichnen ein düsteres Bild. Sie prognostizieren, dass SLMs im Vergleich zu Textmodellen deutlich mehr Rechenleistung und Daten benötigen, was einige dazu veranlasst, die Machbarkeit des Trainings hochwertiger SLMs in Frage zu stellen. Moderne SLMs werden jedoch häufig von vortrainierten Textmodellen (TextLMs) initialisiert, wobei eine Verschachtelung von Sprache und Text verwendet wird, um Wissenstransfer zu ermöglichen. Dies wirft die Frage auf: Skalieren verschachtelte SLMs effizienter als textlose SLMs? In diesem Papier beantworten wir diese Frage mit einem klaren Ja! Wir führen eine Skalierungsanalyse von verschachtelten SLMs durch, indem wir mehrere Dutzend Modelle trainieren und die Skalierungstrends analysieren. Wir beobachten, dass SLMs in diesem Setup effizienter mit der Rechenleistung skalieren. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass die Skalierungsdynamiken deutlich anders sind als bei textlosen SLMs, was darauf hindeutet, dass ein erheblich größerer Teil des Rechenbudgets für die Vergrößerung der Modellgröße anstelle der Trainings-Tokens verwendet werden sollte. Wir untersuchen auch die Rolle von synthetischen Daten und TextLM-Modellfamilien bei der Erschließung dieses Potenzials. Die Ergebnisse legen nahe, dass unser hochskaliertes Modell eine vergleichbare Leistung mit führenden Modellen bei sprachlichen semantischen Metriken erzielt, während es weniger Rechenleistung und Daten als andere Ansätze benötigt. Wir stellen Modelle, Beispiele und Daten als Open Source zur Verfügung – https://pages.cs.huji.ac.il/adiyoss-lab/sims.

ShortV: Effiziente multimodale Large Language Models durch Einfrieren visueller Tokens in ineffektiven Schichten
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1, 2025

Qianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

222

Multimodale Large Language Models (MLLMs) leiden unter hohen Rechenkosten aufgrund ihrer enormen Größe und der großen Anzahl visueller Tokens. In dieser Arbeit untersuchen wir die redundanz auf Schichtebene in MLLMs, indem wir eine neue Metrik einführen, den Layer Contribution (LC), der den Einfluss der Transformationen einer Schicht auf visuelle und Text-Tokens quantifiziert. Die Berechnung des LC beinhaltet die Messung der Abweichung in der Modellausgabe, die sich aus dem Entfernen der Transformationen der Schicht auf die spezifizierten Tokens ergibt. Unser Pilotexperiment zeigt, dass viele Schichten von MLLMs während der Verarbeitung visueller Tokens nur einen minimalen Beitrag leisten. Motiviert durch diese Beobachtung schlagen wir ShortV vor, eine trainingsfreie Methode, die LC nutzt, um ineffektive Schichten zu identifizieren und die Aktualisierung visueller Tokens in diesen Schichten einfriert. Experimente zeigen, dass ShortV die Aktualisierung visueller Tokens in etwa 60\% der MLLM-Schichten einfrieren kann, wodurch die Rechenkosten im Zusammenhang mit der Aktualisierung visueller Tokens drastisch reduziert werden. So erreicht es beispielsweise eine 50\%ige Reduzierung der FLOPs bei LLaVA-NeXT-13B, während die überlegene Leistung erhalten bleibt. Der Code wird öffentlich verfügbar sein unter https://github.com/icip-cas/ShortV.

FreSca: Erschließung des Skalierungsraums in Diffusionsmodellen
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2, 2025

Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

192

Diffusionsmodelle bieten beeindruckende Kontrollierbarkeit für Bildaufgaben, hauptsächlich durch Rauschvorhersagen, die aufgabenspezifische Informationen kodieren, und durch klassifikatorfreie Steuerung, die eine einstellbare Skalierung ermöglicht. Dieser Skalierungsmechanismus definiert implizit einen „Skalierungsraum“, dessen Potenzial für fein abgestimmte semantische Manipulation bisher unzureichend erforscht ist. Wir untersuchen diesen Raum, beginnend mit inversionsbasierter Bearbeitung, bei der die Differenz zwischen bedingten und unbedingten Rauschvorhersagen wichtige semantische Informationen trägt. Unser zentraler Beitrag ergibt sich aus einer Fourier-Analyse der Rauschvorhersagen, die zeigt, dass sich deren nieder- und hochfrequente Komponenten im Verlauf der Diffusion unterschiedlich entwickeln. Basierend auf dieser Erkenntnis führen wir FreSca ein, eine einfache Methode, die die Skalierung der Steuerung unabhängig auf verschiedene Frequenzbänder im Fourier-Bereich anwendet. FreSca verbessert nachweislich bestehende Bildbearbeitungsmethoden ohne erneutes Training. Spannenderweise erstreckt sich seine Wirksamkeit auch auf Bildverständnisaufgaben wie Tiefenschätzung, was quantitative Verbesserungen über mehrere Datensätze hinweg liefert.

Effiziente Modellauswahl für Zeitreihenvorhersagen mittels LLMs
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2, 2025

Wang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

172

Die Modellauswahl ist ein entscheidender Schritt in der Zeitreihenprognose und erfordert traditionell umfangreiche Leistungsbewertungen über verschiedene Datensätze hinweg. Meta-Learning-Ansätze zielen darauf ab, diesen Prozess zu automatisieren, basieren jedoch typischerweise auf vorab erstellten Leistungsmatrizen, deren Erstellung kostspielig ist. In dieser Arbeit schlagen wir vor, Large Language Models (LLMs) als leichtgewichtige Alternative für die Modellauswahl zu nutzen. Unser Ansatz eliminiert die Notwendigkeit expliziter Leistungsmatrizen, indem er das inhärente Wissen und die Fähigkeiten zur logischen Schlussfolgerung von LLMs nutzt. Durch umfangreiche Experimente mit LLaMA, GPT und Gemini zeigen wir, dass unser Ansatz traditionelle Meta-Learning-Techniken und heuristische Baselines übertrifft und gleichzeitig den Rechenaufwand erheblich reduziert. Diese Ergebnisse unterstreichen das Potenzial von LLMs für eine effiziente Modellauswahl in der Zeitreihenprognose.

OpenCodeReasoning: Fortschritte in der Datenverdichtung für den Wettbewerbsprogrammierbereich
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2, 2025

Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

153

Seit dem Aufkommen von auf logischem Denken basierenden großen Sprachmodellen haben viele große Erfolge damit erzielt, die Fähigkeiten zum logischen Denken in Schülermodelle zu destillieren. Solche Techniken haben die Lücke zwischen logischem Denken und Standard-LLMs bei Codierungsaufgaben erheblich verringert. Trotzdem bleibt ein Großteil der Fortschritte beim Destillieren von Denkmodellen hinter proprietären Datensätzen verborgen oder es fehlen Details zur Datenkuratierung, Filterung und anschließenden Schulung. Um dies zu beheben, erstellen wir einen überlegenen, supervidierten Feinabstimmungsdatensatz (SFT), mit dem wir state-of-the-art Ergebnisse in der Codierungsfähigkeit bei Modellen verschiedener Größen erzielen. Unsere destillierten Modelle verwenden ausschließlich SFT, um 61,8 % auf LiveCodeBench und 24,6 % auf CodeContests zu erreichen, womit sie Alternativen übertreffen, die mit Verstärkungslernen trainiert wurden. Anschließend analysieren wir die Datenquellen, die zur Erstellung unseres Datensatzes verwendet wurden, die Auswirkungen der Code-Ausführungsfilterung und die Bedeutung der Anweisungs-/Lösungsvielfalt. Wir stellen fest, dass die Ausführungsfilterung die Benchmark-Genauigkeit negativ beeinflusst hat, was uns dazu veranlasst, die Vielfalt der Anweisungen über die Korrektheit der Lösungen zu priorisieren. Schließlich analysieren wir auch die Token-Effizienz und die Denkmuster, die von diesen Modellen genutzt werden. Wir werden diese Datensätze und destillierten Modelle der Community als Open Source zur Verfügung stellen.

GenPRM: Skalierung der Testzeit-Berechnung von Prozess-Belohnungsmodellen durch generatives Denken
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1, 2025

Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

133

Jüngste Fortschritte bei Large Language Models (LLMs) haben gezeigt, dass der Einsatz von Process Reward Models (PRMs) als Verifizierer vielversprechend ist, um die Leistung von LLMs zu verbessern. Aktuelle PRMs stehen jedoch vor drei zentralen Herausforderungen: (1) begrenzte Fähigkeiten zur Prozessüberwachung und Generalisierung, (2) Abhängigkeit von der Vorhersage skalarer Werte ohne Nutzung der generativen Fähigkeiten von LLMs und (3) die Unfähigkeit, die Rechenleistung von PRMs zur Testzeit zu skalieren. In dieser Arbeit stellen wir GenPRM vor, ein generatives Prozess-Belohnungsmodell, das explizite Chain-of-Thought (CoT)-Argumentation mit Code-Verifizierung durchführt, bevor es eine Bewertung für jeden Argumentationsschritt abgibt. Um hochwertige Prozessüberwachungs-Labels und Begründungsdaten zu erhalten, schlagen wir Relative Progress Estimation (RPE) und ein Begründungssynthese-Framework vor, das Code-Verifizierung integriert. Experimentelle Ergebnisse auf ProcessBench und mehreren mathematischen Argumentationsaufgaben zeigen, dass GenPRM frühere PRMs deutlich übertrifft, obwohl es nur mit 23K Trainingsdaten aus dem MATH-Datensatz trainiert wurde. Durch Skalierung zur Testzeit übertrifft ein 1,5B GenPRM GPT-4o, und ein 7B GenPRM übertrifft Qwen2.5-Math-PRM-72B auf ProcessBench. Zudem zeigt GenPRM starke Fähigkeiten als Kritikmodell zur Verfeinerung von Policy-Modellen. Diese Arbeit etabliert ein neues Paradigma für die Prozessüberwachung, das die Lücke zwischen PRMs und Kritikmodellen in LLMs schließt. Unser Code, Modell und Daten werden unter https://ryanliu112.github.io/GenPRM verfügbar sein.

Interpretation von emergentem Planen in modellfreiem Reinforcement Learning
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2, 2025

Thomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

122

Wir präsentieren die ersten mechanistischen Belege dafür, dass modellfreie Reinforcement-Learning-Agenten Planung erlernen können. Dies wird durch die Anwendung einer Methodik basierend auf konzeptbasierter Interpretierbarkeit auf einen modellfreien Agenten in Sokoban erreicht – einem häufig verwendeten Benchmark für die Untersuchung von Planung. Insbesondere zeigen wir, dass DRC, ein generischer modellfreier Agent, der von Guez et al. (2019) eingeführt wurde, gelernte Konzeptrepräsentationen verwendet, um intern Pläne zu formulieren, die sowohl die langfristigen Auswirkungen von Aktionen auf die Umwelt vorhersagen als auch die Aktionsauswahl beeinflussen. Unsere Methodik umfasst: (1) die Suche nach planungsrelevanten Konzepten, (2) die Untersuchung der Planbildung innerhalb der Repräsentationen des Agenten und (3) die Überprüfung, dass entdeckte Pläne (in den Repräsentationen des Agenten) einen kausalen Effekt auf das Verhalten des Agenten durch Interventionen haben. Wir zeigen auch, dass das Auftreten dieser Pläne mit dem Auftreten einer planungsähnlichen Eigenschaft zusammenfällt: der Fähigkeit, von zusätzlicher Rechenleistung während der Testphase zu profitieren. Schließlich führen wir eine qualitative Analyse des vom Agenten erlernten Planungsalgorithmus durch und entdecken eine starke Ähnlichkeit mit parallelisiertem bidirektionalem Suchverfahren. Unsere Erkenntnisse erweitern das Verständnis der internen Mechanismen, die Planungsverhalten in Agenten zugrunde liegen, was angesichts des aktuellen Trends von emergenten Planungs- und Denkfähigkeiten in LLMs durch RL von Bedeutung ist.

Skalierungsgesetze in der wissenschaftlichen Entdeckung mit KI und Robotikwissenschaftlern
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28, 2025

Pengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

122

Die wissenschaftliche Entdeckung steht durch fortschrittliche Robotik und künstliche Intelligenz vor einem rasanten Fortschritt. Aktuelle wissenschaftliche Praktiken stoßen auf erhebliche Grenzen, da manuelle Experimente zeitaufwendig und ressourcenintensiv bleiben, während multidisziplinäre Forschung die Integration von Wissen über die Expertisegrenzen einzelner Forscher hinaus erfordert. Hier skizzieren wir das Konzept eines autonomen Generalisten-Wissenschaftlers (Autonomous Generalist Scientist, AGS), das agentenbasierte KI und verkörperte Robotik kombiniert, um den gesamten Forschungszyklus zu automatisieren. Dieses System könnte dynamisch mit physischen und virtuellen Umgebungen interagieren und gleichzeitig die Integration von Wissen über verschiedene wissenschaftliche Disziplinen hinweg fördern. Durch den Einsatz dieser Technologien in jeder Forschungsphase – von der Literaturrecherche über die Hypothesengenerierung und Experimentation bis hin zum Verfassen von Manuskripten – und durch die Einbindung interner Reflexion sowie externer Feedbacks zielt dieses System darauf ab, den Zeit- und Ressourcenaufwand für wissenschaftliche Entdeckungen erheblich zu reduzieren. Aufbauend auf der Entwicklung von virtuellen KI-Wissenschaftlern hin zu vielseitigen, KI-basierten Robotikwissenschaftlern verspricht AGS bahnbrechendes Potenzial. Da diese autonomen Systeme zunehmend in den Forschungsprozess integriert werden, stellen wir die Hypothese auf, dass wissenschaftliche Entdeckungen möglicherweise neuen Skalierungsgesetzen folgen könnten, die durch die Anzahl und Fähigkeiten dieser autonomen Systeme geprägt sind. Dies bietet neue Perspektiven darauf, wie Wissen generiert und weiterentwickelt wird. Die Anpassungsfähigkeit verkörperter Roboter an extreme Umgebungen, gepaart mit dem Schwungradeffekt des sich anhäufenden wissenschaftlichen Wissens, birgt das Versprechen, kontinuierlich sowohl physische als auch intellektuelle Grenzen zu überwinden.

NeuralGS: Überbrückung von Neural Fields und 3D-Gaussian Splatting für kompakte 3D-Darstellungen
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29, 2025

Zhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

112

3D Gaussian Splatting (3DGS) zeigt eine überlegene Qualität und Renderinggeschwindigkeit, jedoch mit Millionen von 3D-Gaußverteilungen und erheblichen Speicher- und Übertragungskosten. Aktuelle 3DGS-Kompressionsmethoden konzentrieren sich hauptsächlich auf die Kompression von Scaffold-GS und erzielen beeindruckende Leistungen, jedoch mit einer zusätzlichen Voxelstruktur und einer komplexen Kodierungs- und Quantisierungsstrategie. In diesem Artikel streben wir an, eine einfache, aber effektive Methode namens NeuralGS zu entwickeln, die einen anderen Weg zur Kompression des ursprünglichen 3DGS in eine kompakte Darstellung ohne Voxelstruktur und komplexe Quantisierungsstrategien erforscht. Unsere Beobachtung ist, dass neuronale Felder wie NeRF komplexe 3D-Szenen mit Multi-Layer Perceptron (MLP)-Netzwerken mit nur wenigen Megabyte darstellen können. Daher übernimmt NeuralGS effektiv die neuronale Felddarstellung, um die Attribute der 3D-Gaußverteilungen mit MLPs zu kodieren, wobei selbst für großflächige Szenen nur ein geringer Speicherbedarf erforderlich ist. Um dies zu erreichen, verwenden wir eine Clustering-Strategie und passen die Gaußverteilungen mit verschiedenen kleinen MLPs für jedes Cluster an, basierend auf den Wichtigkeitswerten der Gaußverteilungen als Anpassungsgewichte. Wir experimentieren mit mehreren Datensätzen und erreichen eine durchschnittliche Modellgrößenreduktion um das 45-fache, ohne die visuelle Qualität zu beeinträchtigen. Die Kompressionsleistung unserer Methode auf dem ursprünglichen 3DGS ist vergleichbar mit den speziellen Scaffold-GS-basierten Kompressionsmethoden, was das enorme Potenzial der direkten Kompression des ursprünglichen 3DGS mit neuronalen Feldern demonstriert.

Sparse Autoencoder lernen monosemantische Merkmale in Vision-Sprache-Modellen.
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3, 2025

Mateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

102

Sparse Autoencoders (SAEs) haben kürzlich gezeigt, dass sie die Interpretierbarkeit und Steuerbarkeit von Large Language Models (LLMs) verbessern können. In dieser Arbeit erweitern wir die Anwendung von SAEs auf Vision-Language Models (VLMs), wie z.B. CLIP, und führen einen umfassenden Rahmen zur Bewertung der Monosemantizität in visuellen Repräsentationen ein. Unsere experimentellen Ergebnisse zeigen, dass SAEs, die auf VLMs trainiert werden, die Monosemantizität einzelner Neuronen signifikant verbessern und gleichzeitig hierarchische Repräsentationen aufweisen, die gut mit expertendefinierten Strukturen (z.B. iNaturalist-Taxonomie) übereinstimmen. Besonders bemerkenswert ist, dass wir demonstrieren, dass die Anwendung von SAEs zur Intervention in einem CLIP-Vision-Encoder die Ausgaben von multimodalen LLMs (z.B. LLaVA) direkt steuern kann, ohne dass Änderungen am zugrunde liegenden Modell vorgenommen werden müssen. Diese Ergebnisse unterstreichen die Praktikabilität und Wirksamkeit von SAEs als unüberwachter Ansatz zur Verbesserung sowohl der Interpretierbarkeit als auch der Kontrolle von VLMs.

Whisper-LM: Verbesserung von ASR-Modellen mit Sprachmodellen für ressourcenarme Sprachen
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30, 2025

Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

103

Automatische Spracherkennungssysteme haben zweifellos Fortschritte durch die Integration von mehrsprachigen und multitask-Modellen wie Whisper gemacht, die eine vielversprechende Fähigkeit gezeigt haben, Sprache über eine breite Palette von Sprachen hinweg zu verstehen und zu verarbeiten. Trotz ihrer Robustheit scheitern diese Modelle oft daran, die linguistischen Besonderheiten von Minderheitensprachen zu bewältigen. Diese Studie schließt diese Lücke, indem sie traditionelle und neuartige Sprachmodelle mit feinabgestimmten Whisper-Modellen kombiniert, um deren Leistung in weniger häufig untersuchten Sprachen zu steigern. Durch rigorose Feinabstimmung und Bewertung über mehrere Datensätze hinweg zeigen wir erhebliche Verbesserungen der Wortfehlerrate, insbesondere in ressourcenarmen Szenarien. Unser Ansatz nutzt nicht nur die umfangreichen Daten, auf denen Whisper vortrainiert wurde, sondern ergänzt auch dessen linguistische Anpassungsfähigkeit durch die Einbindung von Sprachmodellen. Wir erzielten Verbesserungen von bis zu 51\% für In-Distribution-Datensätze und bis zu 34\% für Out-of-Distribution-Sätze unter Verwendung statistischer Sprachmodelle, während große Sprachmodelle moderate, aber durchweg robuste Verbesserungen über verschiedene linguistische Kontexte hinweg lieferten. Die Ergebnisse zeigen, dass die Integration zwar zuverlässig alle Modellgrößen begünstigt, das Ausmaß der Verbesserung jedoch variiert, was die Bedeutung optimierter Sprachmodellparameter unterstreicht. Schließlich betonen wir die Bedeutung der Auswahl geeigneter Bewertungsparameter bei der Berichterstattung von Ergebnissen mit transformerbasierten ASR-Modellen. Zusammenfassend ebnet diese Forschung den Weg für inklusivere ASR-Technologien, die durch die Bereicherung ihres linguistischen Wissens besser über verschiedene Sprachen hinweg abschneiden. Für weitere Implementierungsdetails dieser Studie sind die technische Dokumentation und der Quellcode unter http://www.github.com/hitz-zentroa/whisper-lm verfügbar.

Anweisungsgesteuerte autoregressive neuronale Netzwerkparametererzeugung
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2, 2025

Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Das Lernen, Parameter von neuronalen Netzwerken basierend auf Aufgabenbeschreibungen und Architekturspezifikationen zu generieren, ist entscheidend für die Verbesserung der Modellanpassungsfähigkeit und des Transferlernens. Bestehende Methoden, insbesondere solche, die auf Diffusionsmodellen basieren, leiden unter begrenzter Skalierbarkeit bei großen Architekturen, Starrheit im Umgang mit variierenden Netzwerktiefen und einer fragmentierten Parametergenerierung, die die Kohärenz zwischen den Schichten untergräbt. In dieser Arbeit schlagen wir IGPG (Instruction Guided Parameter Generation) vor, ein autoregressives Framework, das die Parametersynthese über verschiedene Aufgaben und Architekturen vereinheitlicht. IGPG nutzt ein VQ-VAE und ein autoregressives Modell, um Parameter neuronaler Netzwerke basierend auf Aufgabenanweisungen, Datensätzen und Architekturdetails zu generieren. Durch die autoregressive Generierung von Tokens für die Gewichte neuronaler Netzwerke gewährleistet IGPG die Kohärenz zwischen den Schichten und ermöglicht eine effiziente Anpassung über Modelle und Datensätze hinweg. Auf der Token-Ebene arbeitend, erfasst IGPG effektiv komplexe Parameterverteilungen, die aus einem breiten Spektrum vortrainierter Modelle aggregiert wurden. Umfangreiche Experimente auf mehreren Vision-Datensätzen zeigen, dass IGPG verschiedene vortrainierte Modelle in ein einziges, flexibles generatives Framework integriert. Die synthetisierten Parameter erzielen eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu modernsten Methoden, insbesondere in Bezug auf Skalierbarkeit und Effizienz bei der Anwendung auf große Architekturen. Diese Ergebnisse unterstreichen das Potenzial von IGPG als leistungsstarkes Werkzeug für die Abfrage vortrainierter Gewichte, die Modellauswahl und die schnelle feinabstimmung für spezifische Aufgaben.

Szenenzentrierte unüberwachte panoptische Segmentierung
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2, 2025

Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth

Unüberwachte panoptische Segmentierung zielt darauf ab, ein Bild in semantisch bedeutungsvolle Regionen und eindeutige Objektinstanzen zu unterteilen, ohne auf manuell annotierte Daten trainiert zu werden. Im Gegensatz zu früheren Arbeiten zur unüberwachten panoptischen Szenenverständigung eliminieren wir die Notwendigkeit von objektzentrierten Trainingsdaten, wodurch das unüberwachte Verständnis komplexer Szenen ermöglicht wird. Zu diesem Zweck präsentieren wir die erste unüberwachte panoptische Methode, die direkt auf szenenzentrierten Bildern trainiert. Insbesondere schlagen wir einen Ansatz vor, um hochauflösende panoptische Pseudolabels auf komplexen szenenzentrierten Daten zu erhalten, indem visuelle Repräsentationen, Tiefen- und Bewegungsinformationen kombiniert werden. Die Nutzung sowohl des Pseudolabel-Trainings als auch einer panoptischen Selbsttrainingsstrategie führt zu einem neuartigen Ansatz, der präzise panoptische Segmentierungen komplexer Szenen vorhersagt, ohne menschliche Annotationen zu benötigen. Unser Ansatz verbessert die panoptische Qualität signifikant und übertrifft beispielsweise den aktuellen Stand der Technik in der unüberwachten panoptischen Segmentierung auf Cityscapes um 9,4 Prozentpunkte in PQ.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Fortschritte und Herausforderungen bei Foundation Agents: Von hirninspirierter Intelligenz zu evolutionären, kollaborativen und sicheren Systemen
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31, 2025

2937

ZClip: Adaptive Spike-Minderung für das Pre-Training von LLMs
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3, 2025

Abhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

892

Jenseits der Pixel: Benchmarking visueller Bearbeitung mit integrierter logischer Schlussfolgerung
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3, 2025

Xiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

692

GPT-ImgEval: Ein umfassender Benchmark zur Diagnose von GPT4o in der Bildgenerierung
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3, 2025

Zhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

573

JavisDiT: Gemeinsamer Audio-Video-Diffusionstransformator mit hierarchischer räumlich-zeitlicher Prioritätssynchronisation
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30, 2025

Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

574

Skalierung zur Inferenzzeit für generalistische Belohnungsmodellierung
Inference-Time Scaling for Generalist Reward Modeling

Apr 3, 2025

Zijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

556

Audio-visuell gesteuerte Videodiffusion mit maskierter selektiver Zustandsraummodellierung für die natürliche Erzeugung von sprechenden Köpfen
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3, 2025

Fa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

477

SkyReels-A2: Alles in Video-Diffusion-Transformatoren komponieren
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3, 2025

Zhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

373

WikiVideo: Artikelgenerierung aus mehreren Videos
WikiVideo: Article Generation from Multiple Videos

Apr 1, 2025

Alexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

373

Neubewertung der Skalierung von Reinforcement Learning für Vision-Language-Modelle: Ein transparenter, von Grund auf entwickelter Rahmen und ein umfassendes Bewertungsschema
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3, 2025

Yan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

303

Skalierungsanalyse von verschachtelten Sprach-Text-Sprachmodellen
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3, 2025

Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

302

ShortV: Effiziente multimodale Large Language Models durch Einfrieren visueller Tokens in ineffektiven Schichten
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1, 2025

Qianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

222

FreSca: Erschließung des Skalierungsraums in Diffusionsmodellen
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2, 2025

Chao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

192

Effiziente Modellauswahl für Zeitreihenvorhersagen mittels LLMs
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2, 2025

Wang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

172

OpenCodeReasoning: Fortschritte in der Datenverdichtung für den Wettbewerbsprogrammierbereich
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2, 2025

Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

153

GenPRM: Skalierung der Testzeit-Berechnung von Prozess-Belohnungsmodellen durch generatives Denken
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1, 2025

Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

133

Interpretation von emergentem Planen in modellfreiem Reinforcement Learning
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2, 2025

Thomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

122

Skalierungsgesetze in der wissenschaftlichen Entdeckung mit KI und Robotikwissenschaftlern
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28, 2025

Pengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

122

NeuralGS: Überbrückung von Neural Fields und 3D-Gaussian Splatting für kompakte 3D-Darstellungen
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29, 2025

Zhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

112

Sparse Autoencoder lernen monosemantische Merkmale in Vision-Sprache-Modellen.
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3, 2025

Mateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

102

Whisper-LM: Verbesserung von ASR-Modellen mit Sprachmodellen für ressourcenarme Sprachen
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30, 2025

Xabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

103

Anweisungsgesteuerte autoregressive neuronale Netzwerkparametererzeugung
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2, 2025

Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Szenenzentrierte unüberwachte panoptische Segmentierung
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2, 2025

Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth