HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

20 papers found

Baichuan-Omni Technischer Bericht
Baichuan-Omni Technical Report

Oct 11

ByYadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

Die herausragenden multimodalen Fähigkeiten und die interaktive Erfahrung von GPT-4o betonen seine entscheidende Rolle in praktischen Anwendungen, jedoch fehlt es an einer leistungsstarken Open-Source-Gegenstück. In diesem Paper stellen wir Baichuan-Omni vor, das erste Open-Source 7B Multimodal Large Language Model (MLLM), das gleichzeitig Modalitäten von Bild, Video, Audio und Text verarbeiten und analysieren kann, während es eine fortschrittliche multimodale interaktive Erfahrung und starke Leistung bietet. Wir schlagen ein effektives multimodales Schulungsschema vor, das mit dem 7B-Modell beginnt und sich durch zwei Stufen der multimodalen Ausrichtung und des Multitask-Finetunings über Audio, Bild, Video und Text erstreckt. Dieser Ansatz stattet das Sprachmodell mit der Fähigkeit aus, visuelle und Audio-Daten effektiv zu verarbeiten. Durch die Demonstration starker Leistungen in verschiedenen omni-modalen und multimodalen Benchmarks streben wir an, dass dieser Beitrag als wettbewerbsfähige Basislinie für die Open-Source-Community dient, um das Verständnis für multimodale Interaktionen in Echtzeit voranzutreiben.

Meissonic: Belebung von Maskierten Generativen Transformatoren für effiziente hochauflösende Text-zu-Bild-Synthese
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

Diffusionsmodelle wie die stabile Diffusion haben bedeutende Fortschritte bei der visuellen Generierung gemacht, doch ihr Paradigma unterscheidet sich grundlegend von autoregressiven Sprachmodellen, was die Entwicklung vereinheitlichter Sprach-Vision-Modelle erschwert. Aktuelle Bemühungen wie LlamaGen haben versucht, autoregressive Bildgenerierung unter Verwendung diskreter VQVAE-Token umzusetzen, doch die große Anzahl an Token macht diesen Ansatz ineffizient und langsam. In dieser Arbeit präsentieren wir Meissonic, das die nicht-autoregressive maskierte Bildmodellierung (MIM) Text-zu-Bild auf ein Niveau hebt, das mit modernsten Diffusionsmodellen wie SDXL vergleichbar ist. Durch die Integration einer umfassenden Reihe von architektonischen Innovationen, fortschrittlichen Positionscodierungsstrategien und optimierten Abtastbedingungen verbessert Meissonic nachhaltig die Leistung und Effizienz von MIM. Darüber hinaus nutzen wir hochwertige Trainingsdaten, integrieren mikrobedingte Informationen basierend auf menschlichen Präferenzbewertungen und verwenden Merkmalskompressionschichten, um die Bildtreue und -auflösung weiter zu verbessern. Unser Modell erreicht nicht nur, sondern übertrifft oft die Leistung bestehender Modelle wie SDXL bei der Generierung hochwertiger, hochauflösender Bilder. Umfangreiche Experimente bestätigen die Fähigkeiten von Meissonic und zeigen sein Potenzial als neuer Standard in der Text-zu-Bild-Synthese. Wir veröffentlichen einen Modell-Checkpoint, der in der Lage ist, Bilder mit einer Auflösung von 1024 mal 1024 zu erzeugen.

StructRAG: Steigerung des wissensintensiven Schlussfolgerns von LLMs durch hybride Informationsstrukturierung zur Inferenzzeit
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

Die abrufgestützte Generierung (RAG) ist ein entscheidendes Mittel zur effektiven Verbesserung großer Sprachmodelle (LLMs) in vielen wissensbasierten Aufgaben. Allerdings haben bestehende RAG-Methoden Schwierigkeiten bei wissensintensiven Denkaufgaben, da die für diese Aufgaben erforderlichen nützlichen Informationen schlecht verteilt sind. Diese Eigenschaft erschwert es bestehenden RAG-Methoden, Schlüsselinformationen genau zu identifizieren und globale Schlussfolgerungen mit einer solch rauschhaften Erweiterung durchzuführen. In diesem Paper, motiviert durch kognitive Theorien, dass Menschen rohe Informationen in verschiedene strukturierte Kenntnisse umwandeln, wenn sie wissensintensive Denkaufgaben angehen, schlagen wir einen neuen Rahmen vor, StructRAG, der den optimalen Strukturtyp für die jeweilige Aufgabe identifizieren kann, originale Dokumente in dieses strukturierte Format umwandeln kann und Antworten basierend auf der resultierenden Struktur ableiten kann. Umfangreiche Experimente über verschiedene wissensintensive Aufgaben zeigen, dass StructRAG eine Spitzenleistung erzielt, insbesondere in herausfordernden Szenarien, was sein Potenzial als effektive Lösung zur Verbesserung von LLMs in komplexen realen Anwendungen zeigt.

Vom Generalisten zum Spezialisten: Anpassung von Vision-Sprachmodellen durch Aufgabenspezifisches visuelles Anweisungstiming.
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

Große Vision-Sprachmodelle (VLMs) kombinieren große Sprachmodelle mit Bildcodierern und zeigen vielversprechende Ergebnisse in verschiedenen Aufgaben. Allerdings erzielen sie oft unterdurchschnittliche Leistungen in aufgabenspezifischen Anwendungen aufgrund von Domänenlücken zwischen der Vorabtrainierung und Feinabstimmung. Wir stellen VITask vor, ein neuartiges Framework, das die aufgabenspezifische Anpassungsfähigkeit von VLMs durch die Integration aufgabenspezifischer Modelle (TSMs) verbessert. VITask verwendet drei Schlüsselstrategien: Beispielprompting (EP), Ausrichtung der Antwortverteilung (RDA) und kontrastive Antwortabstimmung (CRT), um die aufgabenspezifische Leistung von VLMs zu verbessern, indem ihre Antwortverteilungen angepasst werden. EP ermöglicht es TSM-Merkmalen, VLMs zu führen, während RDA es VLMs ermöglicht, sich ohne TSMs während der Inferenz anzupassen, indem sie von beispielgeführten Modellen lernen. CRT optimiert weiterhin das Ranking von korrekten Bild-Antwort-Paaren, wodurch das Risiko der Erzeugung unerwünschter Antworten verringert wird. Experimente mit 12 medizinischen Diagnosedatensätzen über 9 Bildgebungsmodalitäten zeigen, dass VITask sowohl einfache anweisungsgesteuerte VLMs als auch TSMs übertrifft und damit seine Fähigkeit unterstreicht, effektiv ergänzende Merkmale beider Modelle zu integrieren. Darüber hinaus bietet VITask praktische Vorteile wie flexible TSM-Integration und Robustheit gegenüber unvollständigen Anweisungen, was es zu einer vielseitigen und effizienten Lösung für die aufgabenspezifische Feinabstimmung von VLMs macht. Unser Code ist verfügbar unter https://github.com/baiyang4/VITask.

Multi-Agent Kollaborative Datenauswahl zur effizienten LLM-Vortrainierung
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

Eine effiziente Datenauswahl ist entscheidend, um das Pretraining großer Sprachmodelle (LLMs) zu beschleunigen. Obwohl verschiedene Methoden vorgeschlagen wurden, um die Daten-Effizienz zu verbessern, hat nur begrenzte Forschung die inhärenten Konflikte zwischen diesen Ansätzen zur optimalen Datenauswahl für das Pretraining von LLMs behandelt. Um dieses Problem anzugehen, schlagen wir einen neuartigen Multi-Agenten-kollaborativen Datenauswahlmechanismus vor. In diesem Rahmen fungiert jede Datenauswahlmethode als unabhängiger Agent, und eine Agentenkonsole ist konzipiert, um die Informationen aller Agenten während des gesamten LLM-Trainingsprozesses dynamisch zu integrieren. Wir führen umfangreiche empirische Studien durch, um unser Multi-Agenten-Framework zu bewerten. Die experimentellen Ergebnisse zeigen, dass unser Ansatz die Dateneffizienz signifikant verbessert, die Konvergenz im LLM-Training beschleunigt und im Vergleich zu den modernsten Methoden einen durchschnittlichen Leistungsgewinn von 10,5% bei mehreren Sprachmodell-Benchmarks erzielt.

Mechanistische Permutabilität: Merkmale über Schichten hinweg abgleichen
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

Das Verständnis, wie Merkmale in tiefen neuronalen Netzwerken über Schichten hinweg evolvieren, ist eine grundlegende Herausforderung in der mechanistischen Interpretierbarkeit, insbesondere aufgrund von Polysemie und Merkmalsüberlagerung. Während Sparse Autoencoder (SAE) verwendet wurden, um interpretierbare Merkmale aus einzelnen Schichten zu extrahieren, blieb das Ausrichten dieser Merkmale über Schichten hinweg ein offenes Problem. In diesem Paper stellen wir SAE Match vor, eine neuartige, datenfreie Methode zur Ausrichtung von SAE-Merkmalen über verschiedene Schichten eines neuronalen Netzwerks. Unser Ansatz beinhaltet das Abgleichen von Merkmalen durch Minimierung des mittleren quadratischen Fehlers zwischen den gefalteten Parametern von SAEs, eine Technik, die Aktivierungsschwellen in die Encoder- und Decoder-Gewichte einbezieht, um Unterschiede in den Merkmalskalen zu berücksichtigen. Durch umfangreiche Experimente am Gemma 2-Sprachmodell zeigen wir, dass unsere Methode die Merkmalsentwicklung über Schichten hinweg effektiv erfasst und die Qualität des Merkmalsabgleichs verbessert. Wir zeigen auch, dass Merkmale über mehrere Schichten hinweg bestehen bleiben und dass unser Ansatz versteckte Zustände über Schichten hinweg approximieren kann. Unsere Arbeit trägt zum Verständnis der Merkmalsdynamik in neuronalen Netzwerken bei und bietet ein neues Werkzeug für mechanistische Interpretierbarkeitsstudien.

EvolveDirector: Annäherung an die fortschrittliche Text-zu-Bild-Generierung mit großen Vision-Sprach-Modellen
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

In den letzten Fortschritten bei Generierungsmodellen wurden bemerkenswerte Fähigkeiten bei der Erzeugung fantastischer Inhalte gezeigt. Allerdings werden die meisten von ihnen mit proprietären hochwertigen Daten trainiert, und einige Modelle behalten ihre Parameter bei und stellen nur zugängliche Anwendungsprogrammierschnittstellen (APIs) zur Verfügung, was ihre Vorteile für nachgelagerte Aufgaben einschränkt. Um die Machbarkeit des Trainings eines Text-zu-Bild-Generierungsmodells zu untersuchen, das mit fortschrittlichen Modellen vergleichbar ist, unter Verwendung öffentlich verfügbarer Ressourcen, stellen wir EvolveDirector vor. Dieses Framework interagiert mit fortschrittlichen Modellen über ihre öffentlichen APIs, um Text-Bild-Datenpaare zu erhalten, mit denen ein Basismodell trainiert wird. Unsere Experimente mit umfangreichen Daten zeigen, dass das Modell, das mit generierten Daten des fortschrittlichen Modells trainiert wurde, dessen Generierungsfähigkeit approximieren kann. Es erfordert jedoch eine große Anzahl von Stichproben von 10 Millionen oder mehr. Dies verursacht erhebliche Ausgaben in Bezug auf Zeit, Rechenressourcen und insbesondere die Kosten, die mit gebührenpflichtigen APIs verbunden sind. Um dieses Problem anzugehen, nutzen wir vorab trainierte große Vision-Sprach-Modelle (VLMs), um die Evolution des Basismodells zu steuern. VLM bewertet kontinuierlich das Basismodell während des Trainings und aktualisiert und verfeinert das Trainingsdatenset dynamisch durch Diskriminierungs-, Erweiterungs-, Lösch- und Mutationsoperationen. Experimentelle Ergebnisse zeigen, dass dieses Paradigma den erforderlichen Datenumfang signifikant reduziert. Darüber hinaus kann EvolveDirector beim Annähern an mehrere fortschrittliche Modelle die besten von ihnen generierten Proben auswählen, um leistungsstarke und ausgewogene Fähigkeiten zu erlernen. Das endgültig trainierte Modell Edgen übertrifft diese fortschrittlichen Modelle. Der Code und die Modellgewichte sind unter https://github.com/showlab/EvolveDirector verfügbar.

SuperCorrect: Überwachung und Korrektur von Sprachmodellen mit fehlergesteuerten Erkenntnissen
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

Große Sprachmodelle (LLMs) wie GPT-4, PaLM und LLaMA haben signifikante Verbesserungen in verschiedenen Schlussfolgerungsaufgaben gezeigt. Kleinere Modelle wie Llama-3-8B und DeepSeekMath-Base haben jedoch immer noch Schwierigkeiten mit komplexen mathematischen Schlussfolgerungen, da sie Fehler im Denkprozess nicht effektiv identifizieren und korrigieren können. Aktuelle reflektionsbasierte Methoden zielen darauf ab, diese Probleme zu lösen, indem sie Selbstreflexion und Selbstkorrektur ermöglichen, stehen jedoch vor Herausforderungen bei der eigenständigen Erkennung von Fehlern in ihren Schlussfolgerungsschritten. Um diese Einschränkungen zu überwinden, schlagen wir SuperCorrect vor, ein neuartiges Zwei-Stufen-Framework, das ein großes Lehrermodell verwendet, um sowohl die Schlussfolgerungs- als auch die Reflexionsprozesse eines kleineren Schülermodells zu überwachen und zu korrigieren. In der ersten Stufe extrahieren wir hierarchische hochrangige und detaillierte Gedankenvorlagen aus dem Lehrermodell, um das Schülermodell bei der Herausarbeitung feinerer Schlussfolgerungen zu leiten. In der zweiten Stufe führen wir eine Cross-Model Collaborative Direct Preference Optimization (DPO) ein, um die Selbstkorrekturfähigkeiten des Schülermodells zu verbessern, indem es während des Trainings den Korrekturspuren des Lehrermodells folgt. Dieser Cross-Model DPO-Ansatz lehrt das Schülermodell, fehlerhafte Gedanken effektiv zu lokalisieren und zu beheben, indem es fehlergetriebene Erkenntnisse des Lehrermodells verwendet, um den Engpass seiner Gedanken zu überwinden und neue Fähigkeiten und Kenntnisse zu erlangen, um herausfordernde Probleme zu bewältigen. Umfangreiche Experimente zeigen konsistent unsere Überlegenheit gegenüber früheren Methoden. Bemerkenswert übertrifft unser SuperCorrect-7B-Modell signifikant das leistungsstarke DeepSeekMath-7B um 7,8%/5,3% und Qwen2.5-Math-7B um 15,1%/6,3% auf den MATH/GSM8K-Benchmarks und erreicht eine neue SOTA-Leistung unter allen 7B-Modellen. Code: https://github.com/YangLing0818/SuperCorrect-llm

PositionID: LLMs können Längen kontrollieren, kopieren und einfügen mit explizitem Positionsverständnis.
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten in verschiedenen Bereichen, darunter Rollenspiele, kreatives Schreiben, mathematisches Denken und Codierung. Trotz dieser Fortschritte haben LLMs immer noch Schwierigkeiten mit der Längensteuerung, da sie häufig nicht in der Lage sind, spezifische Längenbeschränkungen aufgrund ihrer Token-Ebene Operationen einzuhalten und unzureichend auf Daten mit strengen Längenbeschränkungen trainiert sind. Wir identifizieren dieses Problem als resultierend aus einem Mangel an Positionskenntnis und schlagen neuartige Ansätze - PositionID Prompting und PositionID Fine-Tuning - zur Behebung vor. Diese Methoden verbessern die Fähigkeit des Modells, die Textlänge während der Generierung kontinuierlich zu überwachen und zu steuern. Darüber hinaus führen wir PositionID CP Prompting ein, um LLMs zu ermöglichen, Kopier- und Einfügeoperationen präzise durchzuführen. Darüber hinaus entwickeln wir zwei Benchmarks zur Bewertung der Längensteuerung und der Kopier- und Einfügefähigkeiten. Unsere Experimente zeigen, dass unsere Methoden die Einhaltung der Längenbeschränkungen und die Genauigkeit des Kopierens und Einfügens des Modells signifikant verbessern, ohne die Antwortqualität zu beeinträchtigen.

Semantische Score-Destillation-Abtastung für die kompositionelle Text-zu-3D-Generierung
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

Die Generierung hochwertiger 3D-Assets aus textuellen Beschreibungen bleibt eine zentrale Herausforderung in der Computergrafik- und Bildverarbeitungsforschung. Aufgrund der Knappheit von 3D-Daten nutzen modernste Ansätze vortrainierte 2D-Diffusionsprioritäten, die durch Score Distillation Sampling (SDS) optimiert werden. Trotz Fortschritten ist es nach wie vor schwierig, komplexe 3D-Szenen mit mehreren Objekten oder komplexen Interaktionen zu erstellen. Um dies zu bewältigen, haben aktuelle Methoden Box- oder Layout-Anleitungen integriert. Allerdings haben diese layoutgesteuerten kompositorischen Methoden oft Schwierigkeiten, feinkörnige Kontrolle zu bieten, da sie im Allgemeinen grob sind und an Ausdruckskraft fehlen. Um diese Herausforderungen zu überwinden, stellen wir einen neuartigen SDS-Ansatz vor, Semantic Score Distillation Sampling (SemanticSDS), der darauf abzielt, die Ausdruckskraft und Genauigkeit der kompositorischen Text-zu-3D-Generierung effektiv zu verbessern. Unser Ansatz integriert neue semantische Einbettungen, die Konsistenz über verschiedene Renderingansichten hinweg aufrechterhalten und klar zwischen verschiedenen Objekten und Teilen unterscheiden. Diese Einbettungen werden in eine semantische Karte transformiert, die einen regionspezifischen SDS-Prozess lenkt, der präzise Optimierung und kompositorische Generierung ermöglicht. Durch die Nutzung expliziter semantischer Anleitungen entsperrt unsere Methode die kompositorischen Fähigkeiten bestehender vortrainierter Diffusionsmodelle und erreicht somit eine überlegene Qualität bei der 3D-Inhalts-generierung, insbesondere für komplexe Objekte und Szenen. Experimentelle Ergebnisse zeigen, dass unser SemanticSDS-Framework äußerst effektiv ist, um hochwertigen komplexen 3D-Inhalt zu generieren. Code: https://github.com/YangLing0818/SemanticSDS-3D

KV-Vorhersage zur Verbesserung der Zeit bis zum ersten Token.
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

Die Inferenz mit auf Transformer basierenden Sprachmodellen beginnt mit einem Schritt zur Prompt-Verarbeitung. In diesem Schritt generiert das Modell das erste Ausgabetoken und speichert den KV-Cache, der für zukünftige Generierungsschritte benötigt wird. Dieser Schritt zur Prompt-Verarbeitung kann rechenintensiv sein und bei Milliarden-Parameter-Modellen auf Edge-Geräten, wenn Prompt-Längen oder Batch-Größen zunehmen, 10 Sekunden oder mehr in Anspruch nehmen. Dies beeinträchtigt die Benutzererfahrung, da signifikante Latenz in die Ausgaben des Modells eingeführt wird. Um die Zeit zur Erzeugung des ersten Ausgabewerts (bekannt als "Zeit bis zum ersten Token" oder TTFT) eines vorab trainierten Modells zu reduzieren, führen wir eine neue Methode namens KV-Vorhersage ein. In unserer Methode wird ein kleines Hilfsmodell verwendet, um die Prompt zu verarbeiten und eine Näherung des KV-Caches zu erzeugen, der von einem Basismodell verwendet wird. Dieser approximierte KV-Cache wird dann mit dem Basismodell für die autoregressive Generierung verwendet, ohne dass das Hilfsmodell erneut abgefragt werden muss. Wir zeigen, dass unsere Methode einen pareto-optimalen Effizienz-Genauigkeits-Trade-off im Vergleich zu Baselines erzielt. Auf TriviaQA zeigen wir relative Genauigkeitsverbesserungen im Bereich von 15 % bis 50 % bei verschiedenen TTFT-FLOPs-Budgets. Wir zeigen auch Genauigkeitsverbesserungen von bis zu 30 % bei der Python-Codevervollständigung von HumanEval bei festgelegten TTFT-FLOPs-Budgets. Darüber hinaus benchmarken wir Modelle auf einem Apple M2 Pro CPU und zeigen, dass unsere Verbesserung bei FLOPs zu einer Beschleunigung der TTFT auf der Hardware führt. Wir veröffentlichen unseren Code unter https://github.com/apple/corenet/tree/main/projects/kv-prediction.

Denken während des Generierens: Diskrete Diffusion mit geplanter Rauschunterdrückung
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

Die diskrete Diffusion hat eine Spitzenleistung erreicht, die autoregressive Modelle auf Standard-Benchmarks übertrifft oder annähert. In dieser Arbeit stellen wir die Discrete Diffusion mit geplanter Denoising (DDPD) vor, ein neuartiges Framework, das den Generierungsprozess in zwei Modelle unterteilt: einen Planer und einen Denoiser. Zur Inferenzzeit wählt der Planer die Positionen aus, die als nächstes denoisiert werden sollen, indem er die am stärksten korrupten Positionen identifiziert, die einer Denoising-Behandlung bedürfen, einschließlich der anfänglich korrupten und derjenigen, die zusätzliche Verfeinerung erfordern. Dieser Plan-und-Denoise-Ansatz ermöglicht eine effizientere Rekonstruktion während der Generierung, indem Korruptionen iterativ in optimaler Reihenfolge identifiziert und denoisiert werden. DDPD übertrifft herkömmliche Mask-Diffusion-Methoden, die nur Denoiser verwenden, und erzielt überlegene Ergebnisse bei Benchmarks für Sprachmodellierung wie text8, OpenWebText und tokenbasierte Generierung auf ImageNet 256 mal 256. Bemerkenswert ist, dass DDPD in der Sprachmodellierung den Leistungsunterschied zwischen diffusionsbasierten und autoregressiven Methoden in Bezug auf die generative Perplexität signifikant reduziert. Der Code ist unter https://github.com/liusulin/DDPD verfügbar.

ZeroComp: Zero-Shot-Objekt-Komposition aus Bildintrinsik über Diffusion
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Wir präsentieren ZeroComp, einen effektiven Zero-Shot 3D-Objekt-Compositing-Ansatz, der keine gepaarten Composite-Szenen-Bilder während des Trainings erfordert. Unsere Methode nutzt ControlNet, um von intrinsischen Bildern abhängig zu machen, und kombiniert dies mit einem Stabilen Diffusionsmodell, um dessen Szenenprioritäten zu nutzen, die zusammen als effektiver Rendering-Engine fungieren. Während des Trainings verwendet ZeroComp intrinsische Bilder basierend auf Geometrie, Albedo und maskiertem Shading, alles ohne die Notwendigkeit von gepaarten Bildern von Szenen mit und ohne zusammengesetzte Objekte. Sobald trainiert, integriert es nahtlos virtuelle 3D-Objekte in Szenen, passt das Shading an, um realistische Composites zu erstellen. Wir haben einen hochwertigen Evaluierungsdatensatz entwickelt und zeigen, dass ZeroComp Methoden, die explizite Beleuchtungsschätzungen und generative Techniken verwenden, in quantitativen und menschlichen Wahrnehmungs-Benchmarks übertrifft. Darüber hinaus erstreckt sich ZeroComp auf reale und Outdoor-Bildkompositionen, selbst wenn es ausschließlich auf synthetischen Indoor-Daten trainiert wurde, was seine Effektivität in der Bildkomposition zeigt.

I-Max: Maximierung des Auflösungspotenzials vorab trainierter rektifizierter Fluss-Transformer mit projiziertem Fluss
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

Rektifizierte Fließtransformer (RFTs) bieten eine überlegene Schulungs- und Inferenzeffizienz und sind daher wahrscheinlich die vielversprechendste Richtung zur Skalierung von Diffusionsmodellen. Der Fortschritt bei der Generierungsauflösung war jedoch aufgrund von Datenqualität und Schulungskosten relativ langsam. Die abstimmungsfreie Auflösungsextrapolation bietet eine Alternative, aber aktuelle Methoden führen oft zu einer Verringerung der generativen Stabilität, was die praktische Anwendung einschränkt. In diesem Papier überprüfen wir bestehende Auflösungsextrapolationsmethoden und stellen das I-Max-Framework vor, um das Auflösungspotenzial von Text-zu-Bild-RFTs zu maximieren. I-Max bietet: (i) eine neuartige Projektflussstrategie für stabile Extrapolation und (ii) ein fortschrittliches Inferenz-Toolkit zur Verallgemeinerung des Modellwissens auf höhere Auflösungen. Experimente mit Lumina-Next-2K und Flux.1-dev zeigen die Fähigkeit von I-Max, die Stabilität bei der Auflösungsextrapolation zu verbessern und zu zeigen, dass es die Entstehung von Bilddetails und die Korrektur von Artefakten ermöglichen kann, was den praktischen Wert der abstimmungsfreien Auflösungsextrapolation bestätigt.

DA-Code: Agent Data Science Code Generation Benchmark für große Sprachmodelle
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

Wir stellen DA-Code vor, einen Code-Generierungs-Benchmark, der speziell entwickelt wurde, um LLMs bei agentenbasierten Datenwissenschaftsaufgaben zu bewerten. Dieser Benchmark umfasst drei Kernelemente: Erstens sind die Aufgaben in DA-Code von Natur aus anspruchsvoll, was sie von traditionellen Code-Generierungsaufgaben abhebt und fortgeschrittene Codierungskenntnisse in der Verankerung und Planung erfordert. Zweitens basieren die Beispiele in DA-Code alle auf realen und vielfältigen Daten, die eine breite Palette komplexer Datenbereinigungs- und Analyseaufgaben abdecken. Drittens müssen die Modelle zur Lösung der Aufgaben komplexe Datenwissenschafts-Programmiersprachen nutzen, um komplexe Datenverarbeitung durchzuführen und die Antworten abzuleiten. Wir haben den Benchmark in einer kontrollierbaren und ausführbaren Umgebung aufgebaut, die mit Szenarien der Datenanalyse in der realen Welt übereinstimmt und skalierbar ist. Die Annotatoren entwerfen sorgfältig die Bewertungssuite, um die Genauigkeit und Robustheit der Bewertung sicherzustellen. Wir entwickeln die DA-Agent Baseline. Experimente zeigen, dass obwohl die Baseline besser abschneidet als andere bestehende Frameworks, die Verwendung der aktuellen besten LLMs nur eine Genauigkeit von 30,5% erreicht, was noch viel Raum für Verbesserungen lässt. Wir veröffentlichen unseren Benchmark unter https://da-code-bench.github.io.

GenARM: Belohnungsgesteuerte Generierung mit autoregressivem Belohnungsmodell für die Ausrichtung zur Testzeit
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten, erfordern jedoch eine sorgfältige Ausrichtung an menschlichen Präferenzen. Traditionelle Trainingsmethoden verfeinern LLMs mithilfe von menschlichen Präferenzdatensätzen, was jedoch erhebliche Schulungskosten verursacht und wiederholtes Training erfordert, um unterschiedliche Benutzerpräferenzen zu berücksichtigen. Testzeit-Ausrichtungsmethoden lösen dieses Problem, indem sie Belohnungsmodelle (RMs) verwenden, um eingefrorene LLMs ohne erneutes Training zu lenken. Allerdings stützen sich bestehende Testzeit-Ansätze auf Trajektorien-basierte RMs, die darauf ausgelegt sind, vollständige Antworten zu bewerten, was sie ungeeignet für die autoregressive Textgenerierung macht, die die Berechnung von Belohnungen für das nächste Token aus teilweisen Antworten erfordert. Um dies zu lösen, stellen wir GenARM vor, einen Testzeit-Ausrichtungsansatz, der das Autoregressive Belohnungsmodell nutzt - eine neuartige Belohnungsparametrisierung, die darauf ausgelegt ist, Belohnungen für das nächste Token effizient und effektiv bei der autoregressiven Generierung vorherzusagen. Theoretisch zeigen wir, dass diese Parametrisierung eingefrorene LLMs nachweislich in jede von traditionellen RMs innerhalb des KL-regulierten Verstärkungslernrahmens erreichbare Verteilung lenken kann. Experimentelle Ergebnisse zeigen, dass GenARM signifikant besser abschneidet als frühere Testzeit-Ausrichtungs-Baselines und die Leistung von Trainingszeit-Methoden erreicht. Darüber hinaus ermöglicht GenARM eine effiziente schwach-zu-stark Ausrichtung, indem es größere LLMs mit kleineren RMs ohne hohe Trainingskosten abstimmt. Des Weiteren unterstützt GenARM die Mehrziel-Ausrichtung, was Echtzeit-Kompromisse zwischen Präferenzdimensionen ermöglicht und auf vielfältige Benutzerpräferenzen ohne erneutes Training eingeht.

SimpleStrat: Diversifizierung der Sprachmodellgenerierung mit Stratifikation
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11

ByJustin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

Die Erzeugung verschiedener Antworten von großen Sprachmodellen (LLMs) ist entscheidend für Anwendungen wie Planung/Suche und die Erzeugung synthetischer Daten, bei denen Vielfalt unterschiedliche Antworten über Generationen hinweg liefert. Frühere Ansätze verlassen sich darauf, die Temperatur zu erhöhen, um die Vielfalt zu steigern. Im Gegensatz zur gängigen Meinung zeigen wir jedoch, dass dieser Ansatz nicht nur bei steigender Temperatur zu einer geringeren Qualität einzelner Generationen führt, sondern auch davon abhängt, dass die nächsten Token-Wahrscheinlichkeiten des Modells der wahren Verteilung von Antworten ähnlich sind. Wir schlagen eine alternative Methode vor, die das Sprachmodell selbst nutzt, um den Raum in Schichten zu unterteilen. Bei der Inferenz wird eine zufällige Schicht ausgewählt und eine Stichprobe aus dieser Schicht gezogen. Zur Messung der Vielfalt führen wir CoverageQA ein, einen Datensatz von ungenau gestellten Fragen mit mehreren gleichermaßen plausiblen Antworten, und bewerten die Vielfalt, indem wir die KL-Divergenz zwischen der Ausgabeverteilung und der gleichmäßigen Verteilung über gültige richtige Antworten messen. Da die Berechnung der Wahrscheinlichkeit pro Antwort/Lösung für proprietäre Modelle nicht durchführbar ist, messen wir die Wiedererkennung von richtigen Lösungen. Unsere Auswertung zeigt, dass die Verwendung von SimpleStrat eine um 0,05 höhere Wiedererkennung im Vergleich zu GPT-4o und eine durchschnittliche Reduzierung der KL-Divergenz um 0,36 im Vergleich zu Llama 3 erreicht.

MiRAGeNews: Multimodale realistische KI-generierte Nachrichtenerkennung
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11

ByRunsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

Die Verbreitung von inflammativen oder irreführenden "Fake News"-Inhalten ist in den letzten Jahren zunehmend üblich geworden. Gleichzeitig ist es einfacher geworden, KI-Tools zu verwenden, um fotorealistische Bilder zu generieren, die jede erdenkliche Szene darstellen. Die Kombination dieser beiden - KI-generierte Fake News-Inhalte - ist besonders wirksam und gefährlich. Um der Verbreitung von KI-generierten Fake News entgegenzuwirken, schlagen wir das MiRAGeNews-Datenset vor, ein Datenset von 12.500 hochwertigen realen und KI-generierten Bildunterschriften-Paaren von Generatoren auf dem neuesten Stand der Technik. Wir stellen fest, dass unser Datenset eine signifikante Herausforderung für Menschen (60% F-1) und Multi-Modal LLMs auf dem neuesten Stand der Technik (< 24% F-1) darstellt. Unter Verwendung unseres Datensets trainieren wir einen Multi-Modal-Detektor (MiRAGe), der die Leistung um +5,1% F-1 gegenüber dem Stand der Technik auf Bildunterschriften-Paaren von Out-of-Domain-Bildgeneratoren und Nachrichtenverlagen verbessert. Wir veröffentlichen unseren Code und unsere Daten, um zukünftige Arbeiten zur Erkennung von KI-generierten Inhalten zu unterstützen.

Mentor-KD: Verbesserung kleiner Sprachmodelle durch Multi-Schritt-Begründungen
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11

ByHojae Lee, Junho Kim, SangKeun Lee

Große Sprachmodelle (LLMs) haben durch die Nutzung von Chain-of-Thought (CoT) Prompting bemerkenswerte Leistungen bei verschiedenen komplexen Aufgaben gezeigt. In jüngster Zeit haben Studien einen Wissensvermittlungsansatz (KD) vorgeschlagen, die Reasoning-Destillation, um die Fähigkeit zum Denken solcher LLMs durch Feinabstimmung von Sprachmodellen mit mehrstufigen Begründungen zu übertragen, die von LLM-Lehrern generiert wurden. Allerdings haben sie zwei Herausforderungen unzureichend berücksichtigt, nämlich die unzureichenden Destillationssets des LLM-Lehrmodells in Bezug auf 1) Datenqualität und 2) Bereitstellung von Soft Labels. In diesem Artikel schlagen wir Mentor-KD vor, der die Fähigkeit zum mehrstufigen Denken von LLMs effektiv auf kleinere LMs destilliert und dabei die oben genannten Herausforderungen angeht. Konkret nutzen wir einen Mentor, ein mittelgroßes, aufgabenspezifisch feinabgestimmtes Modell, um zusätzliche CoT-Anmerkungen zu nutzen und dem Schülermodell während der Reasoning-Destillation Soft Labels bereitzustellen. Wir führen umfangreiche Experimente durch und bestätigen die Wirksamkeit von Mentor-KD bei verschiedenen Modellen und komplexen Denkaufgaben.

Synth-SONAR: Sonar-Bildsynthese mit verbesserter Vielfalt und Realismus durch duale Diffusionsmodelle und GPT-Aufforderung
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar

Die Synthese von Sonarbildern ist entscheidend für die Weiterentwicklung von Anwendungen in der Unterwassererkundung, Meeresbiologie und Verteidigung. Traditionelle Methoden stützen sich oft auf umfangreiche und kostspielige Datensammlungen mithilfe von Sonarsensoren, was die Datenqualität und -vielfalt gefährdet. Um diese Einschränkungen zu überwinden, schlägt diese Studie ein neues Sonarbildsynthese-Framework namens Synth-SONAR vor, das Diffusionsmodelle und GPT-Prompting nutzt. Die drei Hauptneuheiten von Synth-SONAR sind folgende: Erstens, durch die Integration von generativen KI-basierten Stileinspritzungstechniken zusammen mit öffentlich verfügbaren realen/simulierten Daten, wodurch eines der größten Sonardatensätze für Sonarforschung erzeugt wird. Zweitens, eine duale textkonditionierte Sonardiffusionsmodell-Hierarchie synthetisiert grobe und feinkörnige Sonarbilder mit verbesserter Qualität und Vielfalt. Drittens nutzen hochrangige (grobe) und niedrigrangige (detaillierte) textbasierte Sonargenerierungsmethoden fortgeschrittene semantische Informationen, die in visuellen Sprachmodellen (VLMs) und GPT-Prompting verfügbar sind. Während der Inferenz generiert die Methode vielfältige und realistische Sonarbilder aus textuellen Anweisungen und überbrückt die Kluft zwischen textuellen Beschreibungen und Sonarbildgenerierung. Dies markiert nach unserem Kenntnisstand erstmals die Anwendung von GPT-Prompting in der Sonarbildgebung. Synth-SONAR erzielt Spitzenresultate bei der Erzeugung hochwertiger synthetischer Sonardatensätze, wodurch deren Vielfalt und Realismus signifikant verbessert werden.

EvolveDirector: Annäherung an die fortschrittliche Text-zu-Bild-Generierung mit großen Vision-Sprach-Modellen
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou