HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

BitNet b1.58 2B4T Technischer Bericht
BitNet b1.58 2B4T Technical Report

Apr 16

ByShuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

Wir stellen BitNet b1.58 2B4T vor, das erste Open-Source, native 1-Bit Large Language Model (LLM) mit 2 Milliarden Parametern. Das Modell, das auf einem Korpus von 4 Billionen Tokens trainiert wurde, wurde umfassend anhand von Benchmarks bewertet, die Sprachverständnis, mathematisches Denken, Programmierfähigkeiten und Konversationsfähigkeit abdecken. Unsere Ergebnisse zeigen, dass BitNet b1.58 2B4T eine Leistung erzielt, die mit führenden Open-Weight, Full-Precision LLMs ähnlicher Größe vergleichbar ist, während es erhebliche Vorteile in Bezug auf die Recheneffizienz bietet, einschließlich eines deutlich reduzierten Speicherbedarfs, Energieverbrauchs und Decodierungslatenz. Um weitere Forschung und Nutzung zu erleichtern, werden die Modellgewichte über Hugging Face veröffentlicht, zusammen mit Open-Source-Inferenzimplementierungen für GPU- und CPU-Architekturen.

ReTool: Reinforcement Learning für den strategischen Einsatz von Werkzeugen in LLMs
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Apr 15

ByJiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong

Während auf Verstärkungslernen (Reinforcement Learning, RL) trainierte Reasoning-Modelle (z. B. DeepSeek R1) in textbasiertem Reasoning hervorragende Leistungen erbringen, haben sie Schwierigkeiten in Szenarien, die strukturiertes Problemlösen erfordern, wie geometrisches Reasoning, präzise Berechnungen oder das Lösen komplexer Gleichungen – Bereiche, in denen rechnerische Werkzeuge wie Code-Interpreter (CI) deutliche Vorteile zeigen. Um diese Lücke zu schließen, schlagen wir ReTool vor, das langformiges Reasoning durch toolintegriertes Lernen verbessert und zwei Schlüsselmerkmale umfasst: (1) die dynamische Verschachtelung von Echtzeit-Code-Ausführung innerhalb natürlicher Sprachverarbeitungsprozesse und (2) ein automatisiertes RL-Paradigma, das Policy-Rollouts mit mehrstufiger Echtzeit-Code-Ausführung ermöglicht und dem Modell beibringt, wann und wie Werkzeuge basierend auf Ergebnisrückmeldungen aufgerufen werden. ReTool verwendet ein systematisches Trainingsframework, das mit der Erzeugung synthetischer Cold-Start-Daten beginnt, um code-augmentierte langformige Reasoning-Traces für die Feinabstimmung von Basismodellen zu erzeugen. Das anschließende RL-Training nutzt Aufgabenresultate als Belohnungen, um die Werkzeugnutzungsstrategie des Modells iterativ zu verfeinern, wodurch die autonome Entdeckung optimaler Werkzeugaufrufmuster ohne menschliche Vorannahmen ermöglicht wird. Experimente auf dem anspruchsvollen MATH-Olympiade-Benchmark AIME demonstrieren die Überlegenheit von ReTool: Unser 32B-Modell erreicht eine Genauigkeit von 67 % mit 400 Trainingsschritten und übertrifft damit textbasierte RL-Baselines (40 % Genauigkeit, 1080 Schritte) in Effizienz und Leistung. Bemerkenswerterweise erreicht ReTool-32B in erweiterten Einstellungen eine Genauigkeit von 72,5 % und übertrifft damit OpenAI's o1-preview um 27,9 %. Weitere Analysen zeigen emergente Verhaltensweisen wie Code-Selbstkorrektur, die auf einen „Aha-Moment“ hinweisen, in dem das Modell die adaptive Werkzeugnutzung autonom beherrscht. Diese Ergebnisse unterstreichen das Potenzial ergebnisgetriebener Werkzeugintegration für die Weiterentwicklung komplexen mathematischen Reasonings und bieten neue Einblicke in hybride neuro-symbolische Systeme.

ColorBench: Können VLMs die farbenfrohe Welt sehen und verstehen? Ein umfassender Benchmark für Farbwahrnehmung, -schlussfolgerung und -robustheit
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

Apr 10

ByYijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou

Farbe spielt eine wichtige Rolle in der menschlichen Wahrnehmung und liefert oft entscheidende Hinweise für visuelles Denken. Es ist jedoch unklar, ob und wie Vision-Language-Modelle (VLMs) Farbe wahrnehmen, verstehen und nutzen können wie Menschen. Dieses Papier stellt ColorBench vor, einen innovativen Benchmark, der sorgfältig entwickelt wurde, um die Fähigkeiten von VLMs im Verständnis von Farbe zu bewerten, einschließlich Farbwahrnehmung, -schlussfolgerung und -robustheit. Durch die Zusammenstellung einer Vielzahl von Testszenarien, die auf realen Anwendungen basieren, bewertet ColorBench, wie diese Modelle Farben wahrnehmen, Bedeutungen aus farbbasierten Hinweisen ableiten und eine konsistente Leistung unter verschiedenen Farbtransformationen aufrechterhalten. Durch eine umfassende Auswertung von 32 VLMs mit unterschiedlichen Sprachmodellen und Vision-Encodern enthüllt unser Papier einige bisher unentdeckte Erkenntnisse: (i) Das Skalierungsgesetz (größere Modelle sind besser) gilt weiterhin auf ColorBench, wobei das Sprachmodell eine wichtigere Rolle spielt als der Vision-Encoder. (ii) Die Leistungsunterschiede zwischen den Modellen sind jedoch relativ gering, was darauf hindeutet, dass das Farbverständnis von bestehenden VLMs weitgehend vernachlässigt wurde. (iii) CoT-Schlussfolgerungen verbessern die Genauigkeit und Robustheit des Farbverständnisses, obwohl es sich um visuell zentrierte Aufgaben handelt. (iv) Farbhinweise werden von VLMs auf ColorBench tatsächlich genutzt, können die Modelle aber in einigen Aufgaben auch in die Irre führen. Diese Erkenntnisse verdeutlichen die kritischen Grenzen aktueller VLMs und unterstreichen die Notwendigkeit, das Farbverständnis zu verbessern. Unser ColorBench kann als grundlegendes Werkzeug dienen, um die Erforschung des menschenähnlichen Farbverständnisses von multimodaler KI voranzutreiben.

SFT oder RL? Eine frühe Untersuchung zur Trainierung von R1-ähnlichen Reasoning-Modellen für große Vision-Sprach-Modelle
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Apr 10

ByHardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie

Diese Arbeit untersucht erneut das vorherrschende Paradigma des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) gefolgt von Reinforcement Learning (RL) für das Training großer visuell-sprachlicher Modelle (Large Vision-Language Models, LVLMs) und enthüllt eine zentrale Erkenntnis: SFT kann nachfolgendes RL erheblich beeinträchtigen, indem es „pseudo-logische Pfade“ induziert, die von Expertenmodellen imitiert werden. Obwohl diese Pfade den natürlichen Denkpfaden von RL-Modellen ähneln mögen, beinhalten sie oft langwierige, zögerliche, weniger informative Schritte und fehlerhafte Schlussfolgerungen. Um diesen Effekt systematisch zu untersuchen, führen wir VLAA-Thinking ein, einen neuen multimodalen Datensatz, der das logische Denken in LVLMs unterstützen soll. VLAA-Thinking wurde über einen sechsstufigen Prozess erstellt, der Beschriftung, logische Destillation, Antwortumformulierung und -überprüfung umfasst, und besteht aus hochwertigen, schrittweisen visuellen Denkpfaden für SFT sowie einer anspruchsvolleren RL-Aufteilung aus derselben Datenquelle. Mit diesem Datensatz führen wir umfangreiche Experimente durch, in denen SFT, RL und deren Kombinationen verglichen werden. Die Ergebnisse zeigen, dass SFT zwar hilft, Denkformate zu erlernen, aber oft dazu führt, dass ausgerichtete Modelle in imitative, starre Denkmuster verfallen, die weiteres Lernen behindern. Im Gegensatz dazu fördert unser RL-Ansatz, der auf der Group Relative Policy Optimization (GRPO) mit einem neuartigen gemischten Belohnungsmodul basiert, das sowohl Wahrnehmungs- als auch Kognitionssignale integriert, ein authentischeres und adaptiveres Denkverhalten. Bemerkenswerterweise erreicht unser Modell VLAA-Thinker, basierend auf Qwen2.5VL 3B, die Top-1-Leistung auf dem Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) unter den LVLMs im 4B-Maßstab und übertrifft den bisherigen Stand der Technik um 1,8 %. Wir hoffen, dass unsere Erkenntnisse wertvolle Einblicke in die Entwicklung von LVLMs mit logischen Fähigkeiten bieten und zukünftige Forschungen in diesem Bereich informieren können.

Cobra: Effiziente Linienzeichnungs-Kolorierung mit breiteren Referenzen
Cobra: Efficient Line Art COlorization with BRoAder References

Apr 16

ByJunhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan

Die Comic-Produktionsindustrie benötigt eine referenzbasierte Kolorierung von Strichzeichnungen mit hoher Genauigkeit, Effizienz, kontextueller Konsistenz und flexibler Steuerung. Eine Comic-Seite umfasst oft diverse Charaktere, Objekte und Hintergründe, was den Kolorierungsprozess verkompliziert. Trotz Fortschritten bei Diffusionsmodellen für die Bildgenerierung bleibt ihre Anwendung in der Strichzeichnungskolorierung begrenzt, da sie Herausforderungen im Umgang mit umfangreichen Referenzbildern, zeitaufwändiger Inferenz und flexibler Steuerung bewältigen müssen. Wir untersuchen die Notwendigkeit umfangreicher kontextueller Bildführung für die Qualität der Strichzeichnungskolorierung. Um diese Herausforderungen zu bewältigen, stellen wir Cobra vor, eine effiziente und vielseitige Methode, die Farbhinweise unterstützt und über 200 Referenzbilder nutzt, während sie eine geringe Latenz beibehält. Kern von Cobra ist eine Causal Sparse DiT-Architektur, die speziell entwickelte Positionskodierungen, kausale sparse Aufmerksamkeit und einen Key-Value Cache nutzt, um langfristige Kontextreferenzen effektiv zu verwalten und die Farbidentitätskonsistenz sicherzustellen. Die Ergebnisse zeigen, dass Cobra durch umfangreiche kontextuelle Referenzen eine präzise Strichzeichnungskolorierung erreicht, die Inferenzgeschwindigkeit und Interaktivität erheblich verbessert und damit kritische industrielle Anforderungen erfüllt. Wir veröffentlichen unsere Codes und Modelle auf unserer Projektseite: https://zhuang2002.github.io/Cobra/.

AlayaDB: Die Datenbasis für effiziente und effektive Langkontext-Inferenz von LLMs
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

Apr 14

ByYangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang

AlayaDB ist ein modernes Vektordatenbanksystem, das speziell für effiziente und effektive Langkontext-Inferenz für Large Language Models (LLMs) bei AlayaDB AI entwickelt wurde. Insbesondere entkoppelt es den KV-Cache und die Aufmerksamkeitsberechnung von den LLM-Inferenzsystemen und kapselt sie in ein neuartiges Vektordatenbanksystem. Für Model-as-a-Service-Anbieter (MaaS) verbraucht AlayaDB weniger Hardware-Ressourcen und bietet eine höhere Generierungsqualität für verschiedene Workloads mit unterschiedlichen Service Level Objectives (SLOs), verglichen mit bestehenden alternativen Lösungen (z. B. KV-Cache-Disaggregation, retrievalbasierte spärliche Aufmerksamkeit). Der Kern von AlayaDB besteht darin, dass es die Aufmerksamkeitsberechnung und das Cache-Management für die LLM-Inferenz in einen Abfrageverarbeitungsprozess abstrahiert und die Leistung durch einen nativen Abfrageoptimierer optimiert. In dieser Arbeit demonstrieren wir die Wirksamkeit von AlayaDB anhand von (i) drei Anwendungsfällen unserer Industriepartner und (ii) umfangreichen experimentellen Ergebnissen auf LLM-Inferenz-Benchmarks.

REPA-E: Freischaltung von VAEs für End-to-End-Optimierung mit latenter Diffusion Transformern
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Apr 14

ByXingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng

In dieser Arbeit gehen wir einer grundlegenden Frage nach: „Können wir latente Diffusionsmodelle zusammen mit dem Tokenizer des variationalen Autoencoders (VAE) end-to-end trainieren?“ Die traditionelle Weisheit des Deep Learnings besagt, dass end-to-end Training, wenn möglich, oft vorzuziehen ist. Für latente Diffusions-Transformer wurde jedoch beobachtet, dass das end-to-end Training sowohl des VAE als auch des Diffusionsmodells mit dem Standard-Diffusionsverlust ineffektiv ist und sogar zu einer Verschlechterung der endgültigen Leistung führt. Wir zeigen, dass, obwohl der Diffusionsverlust ineffektiv ist, das end-to-end Training durch den Representation-Alignment (REPA)-Verlust ermöglicht werden kann – wodurch sowohl der VAE als auch das Diffusionsmodell während des Trainingsprozesses gemeinsam optimiert werden können. Trotz seiner Einfachheit zeigt das vorgeschlagene Trainingsrezept (REPA-E) bemerkenswerte Leistung; es beschleunigt das Training des Diffusionsmodells um mehr als das 17-fache bzw. 45-fache im Vergleich zu REPA und herkömmlichen Trainingsrezepten. Interessanterweise beobachten wir, dass das end-to-end Tuning mit REPA-E auch den VAE selbst verbessert; dies führt zu einer verbesserten latenten Raumstruktur und einer besseren Generationsleistung in nachgelagerten Anwendungen. In Bezug auf die endgültige Leistung setzt unser Ansatz einen neuen State-of-the-art; er erreicht einen FID von 1,26 und 1,83 mit und ohne Classifier-Free Guidance auf ImageNet 256 x 256. Der Code ist verfügbar unter https://end2end-diffusion.github.io.

MLRC-Bench: Können Sprachagenten Herausforderungen der maschinellen Lernforschung lösen?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Apr 13

ByYunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang

Die bisherige Bewertung von Agenten auf Basis großer Sprachmodelle (LLMs) im Bereich der wissenschaftlichen Entdeckung mangelt es an objektiven Baselines und Metriken, um die Tragfähigkeit ihrer vorgeschlagenen Methoden zu beurteilen. Um dieses Problem zu adressieren, führen wir MLRC-Bench ein, einen Benchmark, der darauf abzielt, zu quantifizieren, wie effektiv Sprachagenten herausfordernde Machine Learning (ML)-Forschungswettbewerbe bewältigen können. Unser Benchmark hebt offene Forschungsprobleme hervor, die neuartige Methoden erfordern, im Gegensatz zu kürzlich veröffentlichten Benchmarks wie OpenAI's MLE-Bench (Chan et al., 2024) und METR's RE-Bench (Wijk et al., 2024), die sich auf etablierte Forschungsaufgaben konzentrieren, die weitgehend durch ausreichenden technischen Aufwand lösbar sind. Im Gegensatz zu früheren Arbeiten, wie z. B. AI Scientist (Lu et al., 2024b), die die end-to-end agentische Pipeline durch die Verwendung von LLM-as-a-judge bewerten, misst MLRC-Bench die Schlüsselschritte der Vorschlag und Implementierung neuartiger Forschungsmethoden und bewertet sie mit einem neu vorgeschlagenen rigorosen Protokoll und objektiven Metriken. Unser kuratiertes Set von 7 Wettbewerbsaufgaben offenbart erhebliche Herausforderungen für LLM-Agenten. Selbst der beste getestete Agent (gemini-exp-1206 unter MLAB (Huang et al., 2024a)) schließt nur 9,3 % der Lücke zwischen der Baseline und den besten menschlichen Teilnehmerergebnissen. Darüber hinaus zeigt unsere Analyse eine Fehlausrichtung zwischen der von LLM-bewerteten Innovation und ihrer tatsächlichen Leistung bei hochmodernen ML-Forschungsproblemen. MLRC-Bench ist ein dynamischer Benchmark, der kontinuierlich mit neuen ML-Wettbewerben wachsen soll, um rigorose und objektive Bewertungen der Forschungsfähigkeiten von KI zu fördern.

SIFT-50M: Ein groß angelegter multilingualer Datensatz für die Feinabstimmung von Sprachinstruktionen
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Apr 12

ByPrabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

Wir stellen SIFT (Speech Instruction Fine-Tuning) vor, einen Datensatz mit 50 Millionen Beispielen, der für das Feinabstimmen von Anweisungen und das Vortraining von sprach-textbasierten großen Sprachmodellen (LLMs) entwickelt wurde. SIFT-50M wurde aus öffentlich verfügbaren Sprachkorpora erstellt, die insgesamt 14.000 Stunden Sprachmaterial umfassen, und nutzt LLMs sowie etablierte Expertensysteme. Der Datensatz umfasst fünf Sprachen und deckt ein breites Spektrum an Sprachverständnis sowie steuerbare Sprachgenerierungsanweisungen ab. Mit SIFT-50M trainieren wir SIFT-LLM, das bestehende sprach-textbasierte LLMs in Benchmarks zur Befolgung von Anweisungen übertrifft und gleichzeitig wettbewerbsfähige Leistungen bei grundlegenden Sprachaufgaben erzielt. Um die weitere Forschung zu unterstützen, führen wir außerdem EvalSIFT ein, einen Benchmark-Datensatz, der speziell zur Bewertung der Fähigkeiten von sprach-textbasierten LLMs zur Befolgung von Anweisungen entwickelt wurde.

Syzygy der Gedanken: Verbesserung des LLM CoT durch die minimale freie Auflösung
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

Apr 13

ByChenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen

Chain-of-Thought (CoT) Prompting verbessert die Argumentationsfähigkeit großer Sprachmodelle (LLMs), indem Probleme in sequenzielle Schritte zerlegt werden, die menschliche Logik nachahmen und Fehler reduzieren. Komplexe Aufgaben mit großen Lösungsräumen und vagen Einschränkungen übersteigen jedoch oft die Kapazität einer einzelnen Argumentationskette. Inspiriert von der Minimal Free Resolution (MFR) in der kommutativen Algebra und algebraischen Geometrie, schlagen wir Syzygy of Thoughts (SoT) vor – ein neuartiges Framework, das CoT durch die Einführung zusätzlicher, miteinander verknüpfter Argumentationspfade erweitert. SoT erfasst tiefere logische Abhängigkeiten und ermöglicht so robustere und strukturiertere Problemlösungen. MFR zerlegt ein Modul in eine Sequenz freier Module mit minimalem Rang und bietet einen strukturierten analytischen Ansatz für komplexe Systeme. Diese Methode führt die Konzepte „Modul“, „Betti-Zahlen“, „Freiheit“, „Abbildung“, „Exaktheit“ und „Minimalität“ ein, wodurch das ursprüngliche komplexe Problem systematisch in logisch vollständige minimale Teilprobleme zerlegt wird, während Schlüsselmerkmale des Problems erhalten bleiben und die Argumentationslänge reduziert wird. Wir haben SoT in verschiedenen Datensätzen (z. B. GSM8K, MATH) und Modellen (z. B. GPT-4o-mini, Qwen2.5) getestet und dabei eine Inferenzgenauigkeit erreicht, die den gängigen CoT-Standards entspricht oder diese übertrifft. Darüber hinaus verbessert unser Ansatz durch die Ausrichtung des Sampling-Prozesses an algebraischen Einschränkungen die Skalierbarkeit der Inferenzzeit in LLMs und gewährleistet sowohl transparente Argumentation als auch hohe Leistung. Unser Code wird öffentlich unter https://github.com/dlMARiA/Syzygy-of-thoughts verfügbar sein.

Robuste und feingranulare Erkennung von KI-generierten Texten
Robust and Fine-Grained Detection of AI Generated Texts

Apr 16

ByRam Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq

Ein ideales Erkennungssystem für maschinell generierte Inhalte sollte mit jedem Generator gut funktionieren, da täglich immer fortschrittlichere LLMs entstehen. Bestehende Systeme haben oft Schwierigkeiten, KI-generierte Inhalte in kürzeren Texten genau zu identifizieren. Darüber hinaus werden nicht alle Texte vollständig von einem Menschen oder einem LLM verfasst, weshalb wir uns stärker auf partielle Fälle konzentriert haben, d. h. auf von Mensch und LLM gemeinsam verfasste Texte. Unser Artikel stellt eine Reihe von Modellen vor, die für die Aufgabe der Token-Klassifizierung entwickelt wurden und auf einer umfangreichen Sammlung von Mensch-Maschine-gemeinsam verfassten Texten trainiert wurden. Diese Modelle zeigten gute Leistungen bei Texten aus unbekannten Domänen, von unbekannten Generatoren, Texten von Nicht-Muttersprachlern und solchen mit adversarischen Eingaben. Wir stellen außerdem einen neuen Datensatz mit über 2,4 Millionen solcher Texte vor, die größtenteils von mehreren bekannten proprietären LLMs in 23 Sprachen gemeinsam verfasst wurden. Wir präsentieren auch die Ergebnisse der Leistung unserer Modelle für jeden Text jeder Domäne und jedes Generators. Zusätzliche Erkenntnisse umfassen den Vergleich der Leistung gegen jede adversarische Methode, die Länge der Eingabetexte und die Eigenschaften der generierten Texte im Vergleich zu den ursprünglich von Menschen verfassten Texten.

Vivid4D: Verbesserung der 4D-Rekonstruktion aus monokularen Videos durch Video-Inpainting
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Apr 15

ByJiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao

Die Rekonstruktion von 4D-dynamischen Szenen aus zufällig aufgenommenen monokularen Videos ist wertvoll, aber äußerst anspruchsvoll, da jeder Zeitpunkt aus einem einzigen Blickwinkel beobachtet wird. Wir stellen Vivid4D vor, einen neuartigen Ansatz, der die Synthese von 4D-monokularen Videos verbessert, indem er die Beobachtungsansichten erweitert – also Multi-View-Videos aus einer monokularen Eingabe synthetisiert. Im Gegensatz zu bestehenden Methoden, die entweder ausschließlich geometrische Prioritäten zur Überwachung nutzen oder generative Prioritäten verwenden, während sie die Geometrie vernachlässigen, integrieren wir beides. Dies formuliert die Ansichtserweiterung als eine Video-Inpainting-Aufgabe um, bei der beobachtete Ansichten basierend auf monokularen Tiefenprioritäten in neue Blickwinkel verzerrt werden. Um dies zu erreichen, trainieren wir ein Video-Inpainting-Modell auf unpositionierten Webvideos mit synthetisch generierten Masken, die Verzerrungsokklusionen nachahmen, um eine räumlich und zeitlich konsistente Vervollständigung fehlender Regionen zu gewährleisten. Um weitere Ungenauigkeiten in den monokularen Tiefenprioritäten zu mindern, führen wir eine iterative Ansichtserweiterungsstrategie und einen robusten Rekonstruktionsverlust ein. Experimente zeigen, dass unsere Methode die monokulare 4D-Szenenrekonstruktion und -vervollständigung effektiv verbessert.

Auf dem Weg zum Erlernen der Vollendung von allem in Lidar
Towards Learning to Complete Anything in Lidar

Apr 16

ByAyca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep

Wir schlagen CAL (Complete Anything in Lidar) für die formbasierte Vervollständigung von Lidar-Daten in realen Umgebungen vor. Dies steht in engem Zusammenhang mit der semantischen/panoptischen Szenenvervollständigung auf Basis von Lidar-Daten. Allerdings können aktuelle Methoden nur Objekte vervollständigen und erkennen, die einem festen Vokabular entsprechen, das in bestehenden Lidar-Datensätzen annotiert ist. Im Gegensatz dazu nutzt unser Zero-Shot-Ansatz den zeitlichen Kontext aus multimodalen Sensordatensequenzen, um Objektformen und semantische Merkmale beobachteter Objekte zu extrahieren. Diese werden dann in ein rein auf Lidar basiertes Modell zur instanzbasierten Vervollständigung und Erkennung destilliert. Obwohl wir nur Teilform-Vervollständigungen extrahieren, zeigt sich, dass unser destilliertes Modell lernt, vollständige Objektformen aus mehreren solcher Teilbeobachtungen im gesamten Datensatz abzuleiten. Wir demonstrieren, dass unser Modell auf Standard-Benchmarks für semantische und panoptische Szenenvervollständigung angewendet werden kann, Objekte als (amodale) 3D-Bounding-Boxen lokalisiert und Objekte jenseits fester Klassenkategorien erkennt. Unsere Projektseite ist unter https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar zu finden.

FreshStack: Entwicklung realistischer Benchmarks zur Bewertung der Retrieval-Leistung bei technischen Dokumenten
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Apr 17

ByNandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

Wir stellen FreshStack vor, ein wiederverwendbares Framework zur automatischen Erstellung von Evaluierungs-Benchmarks für Information Retrieval (IR) aus von der Community gestellten Fragen und Antworten. FreshStack führt die folgenden Schritte durch: (1) automatische Korpus-Sammlung aus Code und technischer Dokumentation, (2) Nugget-Generierung aus von der Community gestellten Fragen und Antworten sowie (3) Nugget-basierte Unterstützung, bei der Dokumente mithilfe einer Kombination von Retrieval-Techniken und hybriden Architekturen abgerufen werden. Wir verwenden FreshStack, um fünf Datensätze zu schnell wachsenden, aktuellen und Nischenthemen zu erstellen, um sicherzustellen, dass die Aufgaben ausreichend herausfordernd sind. Bei der Anwendung von bestehenden Retrieval-Modellen auf FreshStack ohne Anpassungen schneiden diese auf allen fünf Themen deutlich schlechter ab als Oracle-Ansätze, was auf erheblichen Verbesserungsbedarf bei der IR-Qualität hinweist. Zusätzlich identifizieren wir Fälle, in denen Reranker die Genauigkeit des Retrievals in der ersten Stufe nicht eindeutig verbessern (zwei von fünf Themen). Wir hoffen, dass FreshStack zukünftige Arbeiten zur Konstruktion realistischer, skalierbarer und unverfälschter IR- und RAG-Evaluierungs-Benchmarks erleichtern wird. Die FreshStack-Datensätze sind verfügbar unter: https://fresh-stack.github.io.

BlockGaussian: Effiziente großskalige Szenerie-Neuansichtssynthese durch adaptive blockbasierte Gaußsche Splatting
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via Adaptive Block-Based Gaussian Splatting

Apr 12

ByYongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou

Die jüngsten Fortschritte im Bereich des 3D Gaussian Splatting (3DGS) haben bemerkenswertes Potenzial bei der Synthese neuer Ansichten gezeigt. Das Divide-and-Conquer-Paradigma ermöglichte die Rekonstruktion großflächiger Szenen, doch bestehen weiterhin erhebliche Herausforderungen bei der Szenenpartitionierung, Optimierung und dem Zusammenführungsprozess. Dieses Papier stellt BlockGaussian vor, ein neuartiges Framework, das eine inhaltsbewusste Szenenpartitionierungsstrategie und eine sichtbarkeitsbasierte Blockoptimierung integriert, um eine effiziente und hochwertige Rekonstruktion großflächiger Szenen zu erreichen. Konkret berücksichtigt unser Ansatz die variationsreiche Inhaltskomplexität in verschiedenen Regionen und gleicht die Rechenlast während der Szenenpartitionierung aus, was eine effiziente Szenenrekonstruktion ermöglicht. Um das Problem der fehlenden Übereinstimmung bei der unabhängigen Blockoptimierung zu lösen, führen wir Hilfspunkte während der individuellen Blockoptimierung ein, um die Ground-Truth-Überwachung auszurichten, was die Rekonstruktionsqualität verbessert. Darüber hinaus schlagen wir eine pseudo-ansichtsbasierte Geometriebeschränkung vor, die die durch Luftraum-Floater verursachte Rendering-Verschlechterung während der Blockzusammenführung effektiv reduziert. Umfangreiche Experimente an großflächigen Szenen zeigen, dass unser Ansatz sowohl in der Rekonstruktionseffizienz als auch in der Rendering-Qualität Spitzenleistungen erzielt, mit einer 5-fachen Beschleunigung der Optimierung und einer durchschnittlichen PSNR-Verbesserung von 1,21 dB bei mehreren Benchmarks. Insbesondere reduziert BlockGaussian den Rechenbedarf erheblich und ermöglicht die Rekonstruktion großflächiger Szenen auf einem einzelnen 24GB-VRAM-Gerät. Die Projektseite ist unter https://github.com/SunshineWYC/BlockGaussian verfügbar.

„Es ist keine Repräsentation von mir“: Untersuchung von Akzent-Bias und digitaler Exklusion in synthetischen KI-Sprachdiensten
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

Apr 12

ByShira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh

Jüngste Fortschritte in der künstlichen Intelligenz (KI) bei der Sprachgenerierung und Stimmklontechnologie haben naturalistische Sprache und präzise Stimmreplikation ermöglicht, doch ihr Einfluss auf soziotechnische Systeme über verschiedene Akzente und linguistische Merkmale hinweg ist noch nicht vollständig verstanden. Diese Studie bewertet zwei synthetische KI-Stimmservices (Speechify und ElevenLabs) mithilfe eines Mixed-Methods-Ansatzes, der Umfragen und Interviews kombiniert, um die technische Leistung zu bewerten und zu untersuchen, wie die persönlichen Erfahrungen der Nutzer ihre Wahrnehmung von Akzentvariationen in diesen Sprachtechnologien beeinflussen. Unsere Ergebnisse zeigen technische Leistungsunterschiede bei fünf regionalen englischsprachigen Akzenten und verdeutlichen, wie aktuelle Sprachgenerierungstechnologien unbeabsichtigt linguistische Privilegien und akzentbasierte Diskriminierung verstärken könnten, was potenziell neue Formen digitaler Ausgrenzung schafft. Insgesamt unterstreicht unsere Studie die Notwendigkeit eines inklusiven Designs und von Regulierungen, indem sie umsetzbare Erkenntnisse für Entwickler, politische Entscheidungsträger und Organisationen liefert, um gerechte und sozial verantwortungsvolle KI-Sprachtechnologien sicherzustellen.

ReTool: Reinforcement Learning für den strategischen Einsatz von Werkzeugen in LLMs
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Apr 15

ByJiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong