HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

LazyLLM: Dynamisches Token-Pruning zur effizienten Inferenz von Long-Context-LLMs
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

Die Inferenz von auf Transformer basierenden großen Sprachmodellen besteht aus zwei aufeinanderfolgenden Phasen: 1) einer Vorausfüllphase zur Berechnung des KV-Caches von Eingaben und zur Generierung des ersten Tokens und 2) einer Decodierungsphase zur Generierung nachfolgender Tokens. Bei langen Eingaben müssen während der Vorausfüllphase der KV-Cache für alle Tokens berechnet werden, was die Zeit zur Generierung des ersten Tokens signifikant erhöhen kann. Folglich kann die Vorausfüllphase zum Engpass im Generierungsprozess werden. Es bleibt eine offene Frage, ob alle Eingabetokens für die Generierung des ersten Tokens unerlässlich sind. Um dies zu beantworten, stellen wir eine neue Methode namens LazyLLM vor, die selektiv den KV für Tokens berechnet, die für die Vorhersage des nächsten Tokens in beiden Phasen, der Vorausfüllung und der Decodierung, wichtig sind. Im Gegensatz zu statischen Pruning-Ansätzen, die die Eingabe auf einmal kürzen, ermöglicht LazyLLM Sprachmodellen, in verschiedenen Generierungsschritten dynamisch unterschiedliche Teilmengen von Tokens aus dem Kontext auszuwählen, auch wenn sie in vorherigen Schritten gekürzt wurden. Umfangreiche Experimente mit Standarddatensätzen in verschiedenen Aufgaben zeigen, dass LazyLLM eine generische Methode ist, die nahtlos in bestehende Sprachmodelle integriert werden kann, um die Generierung signifikant zu beschleunigen, ohne Feinabstimmung. Beispielsweise beschleunigt LazyLLM in der Aufgabe des Multi-Dokumenten-Frage-Antwortens die Vorausfüllphase des LLama 2 7B-Modells um das 2,34-fache, während die Genauigkeit beibehalten wird.

Interne Konsistenz und Selbst-Feedback in großen Sprachmodellen: Eine Übersicht
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

Große Sprachmodelle (LLMs) sollen präzise reagieren, zeigen jedoch häufig mangelhaftes Denken oder erzeugen halluzinatorische Inhalte. Um diesen Herausforderungen zu begegnen, wurden Studien mit dem Präfix "Self-" wie Self-Konsistenz, Self-Verbesserung und Self-Verfeinerung initiiert. Sie haben eine Gemeinsamkeit: LLMs bewerten und aktualisieren sich selbst, um die Probleme zu mildern. Dennoch fehlt es diesen Bemühungen an einer vereinheitlichten Perspektive zur Zusammenfassung, da bestehende Umfragen hauptsächlich auf Kategorisierung abzielen, ohne die Motivationen hinter diesen Arbeiten zu untersuchen. In diesem Artikel fassen wir einen theoretischen Rahmen zusammen, genannt Interne Konsistenz, der einheitliche Erklärungen für Phänomene wie den Mangel an Denken und das Vorhandensein von Halluzinationen bietet. Interne Konsistenz bewertet die Kohärenz zwischen den latenten Schichten, Decodierungsschichten und Antwortschichten von LLMs basierend auf Abtastmethoden. Aufbauend auf dem Rahmen der Internen Konsistenz stellen wir einen schlanken, aber effektiven theoretischen Rahmen vor, der in der Lage ist, die Interne Konsistenz zu erkunden, genannt Self-Feedback. Der Self-Feedback-Rahmen besteht aus zwei Modulen: Selbstbewertung und Selbstaktualisierung. Dieser Rahmen wurde in zahlreichen Studien angewendet. Wir klassifizieren diese Studien systematisch nach Aufgaben und Arbeitslinien; fassen relevante Evaluationsmethoden und Benchmarks zusammen; und gehen der Frage nach, "Funktioniert Self-Feedback wirklich?" Wir schlagen mehrere kritische Standpunkte vor, darunter die Hypothese der "Sanduhr-Evolution der Internen Konsistenz", die Annahme "Konsistenz ist (fast) Korrektheit" und das "Paradoxon des latenten und expliziten Denkens". Darüber hinaus skizzieren wir vielversprechende Richtungen für zukünftige Forschung. Wir haben den experimentellen Code, die Referenzliste und statistische Daten als Open Source veröffentlicht, verfügbar unter https://github.com/IAAR-Shanghai/ICSFSurvey.

EVLM: Ein effizientes Vision-Language-Modell für visuelles Verständnis
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

Im Bereich der multimodalen Sprachmodelle basieren die meisten Methoden auf einer Architektur, die LLaVA ähnelt. Diese Modelle verwenden ein ViT-Merkmal mit einer einzigen Schicht als visuellen Hinweis und speisen es direkt in die Sprachmodelle ein, zusammen mit textuellen Tokens. Jedoch kann der Selbst-Aufmerksamkeitsmechanismus der Sprachmodelle bei der Verarbeitung langer Sequenzen von visuellen Signalen oder Eingaben wie Videos zu erheblichem Rechenaufwand führen. Darüber hinaus erschwert die Verwendung von ViT-Merkmalen mit einer einzigen Schicht großen Sprachmodellen, visuelle Signale vollständig wahrzunehmen. Dieser Artikel schlägt ein effizientes multimodales Sprachmodell vor, um die Rechenkosten zu minimieren und dem Modell zu ermöglichen, visuelle Signale so umfassend wie möglich wahrzunehmen. Unsere Methode umfasst hauptsächlich: (1) die Verwendung von Kreuz-Aufmerksamkeit zur Bild-Text-Interaktion ähnlich wie bei Flamingo. (2) die Nutzung hierarchischer ViT-Merkmale. (3) die Einführung des Mechanismus der Expertenmischung (MoE) zur Verbesserung der Modellwirksamkeit. Unser Modell erzielt wettbewerbsfähige Ergebnisse bei öffentlichen multimodalen Benchmarks und schneidet gut bei Aufgaben wie der Bildunterschrift und der Videounterschrift ab.

Stabile Audio-Öffnung
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Offene generative Modelle sind für die Gemeinschaft von entscheidender Bedeutung, da sie Feinabstimmungen ermöglichen und als Basislinien dienen, wenn neue Modelle vorgestellt werden. Die meisten aktuellen Text-zu-Audio-Modelle sind jedoch privat und nicht für Künstler und Forscher zugänglich, um darauf aufzubauen. Hier beschreiben wir die Architektur und den Schulungsprozess eines neuen offenen Gewichts-Text-zu-Audio-Modells, das mit Creative Commons-Daten trainiert wurde. Unsere Bewertung zeigt, dass die Leistung des Modells im Vergleich zum Stand der Technik über verschiedene Metriken hinweg wettbewerbsfähig ist. Insbesondere zeigen die berichteten FDopenl3-Ergebnisse (die Realität der Generierungen messen) sein Potenzial für hochwertige Stereoklangsynthese mit 44,1 kHz.

ChatQA 2: Überbrückung der Kluft zu proprietären LLMs in langem Kontext und RAG-Fähigkeiten
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

In dieser Arbeit stellen wir ChatQA 2 vor, ein auf Llama3 basierendes Modell, das entwickelt wurde, um die Kluft zwischen Open-Access LLMs und führenden proprietären Modellen (z.B. GPT-4-Turbo) in den Fähigkeiten des Verstehens von langem Kontext und der Generierung mit abrufverstärkter Suche (RAG) zu überbrücken. Diese beiden Fähigkeiten sind für LLMs entscheidend, um große Informationsmengen zu verarbeiten, die nicht in eine einzelne Eingabe passen, und ergänzen sich je nach den nachgelagerten Aufgaben und den Rechenbudgets. Wir präsentieren ein detailliertes Rezept für das fortgesetzte Training, um das Kontextfenster des Llama3-70B-Base-Modells von 8K auf 128K Tokens zu erweitern, zusammen mit einem dreistufigen Anpassungsprozess, um die Anweisungsbeachtung des Modells, die RAG-Leistung und die Fähigkeiten des Verstehens von langem Kontext zu verbessern. Unsere Ergebnisse zeigen, dass das Llama3-ChatQA-2-70B-Modell eine Genauigkeit erreicht, die mit der von GPT-4-Turbo-2024-0409 bei vielen Aufgaben des Verstehens von langem Kontext vergleichbar ist und es bei der RAG-Benchmark übertrifft. Interessanterweise stellen wir fest, dass der modernste Retriever für langen Kontext das Fragmentierungsproblem des Top-k-Kontexts bei RAG lindern kann und somit die RAG-basierten Ergebnisse für Aufgaben des Verstehens von langem Kontext weiter verbessert. Wir bieten auch umfangreiche Vergleiche zwischen RAG und Lösungen für langen Kontext unter Verwendung modernster LLMs für langen Kontext.

Qalam: Ein multimodales LLM für die optische Zeichenerkennung und Handschrifterkennung des Arabischen.
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

Die optische Zeichenerkennung (OCR) und Handschrifterkennung (HWR) des Arabischen stellen aufgrund der kursorischen und kontextsensitiven Natur des arabischen Skripts einzigartige Herausforderungen dar. Diese Studie stellt Qalam vor, ein neuartiges Grundlagenmodell, das für die arabische OCR und HWR entwickelt wurde und auf einer SwinV2-Encoder- und RoBERTa-Decoder-Architektur basiert. Unser Modell übertrifft signifikant bestehende Methoden und erreicht eine Wortfehlerrate (WER) von nur 0,80% bei HWR-Aufgaben und 1,18% bei OCR-Aufgaben. Wir trainieren Qalam auf einem vielfältigen Datensatz, der über 4,5 Millionen Bilder aus arabischen Manuskripten und einen synthetischen Datensatz mit 60.000 Bild-Text-Paaren umfasst. Besonders bemerkenswert ist die außergewöhnliche Handhabung von arabischen Diakritika durch Qalam, eine entscheidende Eigenschaft in arabischen Skripts. Darüber hinaus zeigt es eine bemerkenswerte Fähigkeit zur Verarbeitung von hochauflösenden Eingaben, was eine häufige Einschränkung in aktuellen OCR-Systemen angeht. Diese Fortschritte unterstreichen das Potenzial von Qalam als führende Lösung für die Erkennung des arabischen Skripts und bieten einen signifikanten Sprung in Genauigkeit und Effizienz.

VisFocus: Prompt-gesteuerte Bildcodierer für OCR-freies dichtes Dokumentenverständnis
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

In den letzten Jahren wurden bemerkenswerte Fortschritte im Bereich des visuellen Dokumentenverständnisses erzielt, wobei die vorherrschende Architektur aus einer Kaskade von Bild- und Sprachmodellen besteht. Der Textbestandteil kann entweder explizit mit Hilfe externer OCR-Modelle in OCR-basierten Ansätzen extrahiert werden, oder alternativ kann dem Bildmodell in OCR-freien Ansätzen Lesefähigkeiten verliehen werden. Typischerweise werden die Abfragen an das Modell ausschließlich an den Sprachbestandteil eingegeben, was erfordert, dass die visuellen Merkmale das gesamte Dokument umfassen. In diesem Paper präsentieren wir VisFocus, eine OCR-freie Methode, die darauf abzielt, die Kapazität des Bildencoders besser auszuschöpfen, indem sie ihn direkt mit der Sprachanweisung verknüpft. Hierfür ersetzen wir die Down-Sampling-Schichten durch Schichten, die die Eingabeaufforderung erhalten und es ermöglichen, relevante Teile des Dokuments hervorzuheben, während andere ignoriert werden. Wir kombinieren die Architekturverbesserungen mit einer neuartigen Vortrainingsaufgabe, bei der die Sprachmaskierung auf einem Ausschnitt des Dokumententextes verwendet wird, der dem visuellen Encoder anstelle der Anweisung zugeführt wird, um das Modell mit Fokussierungsfähigkeiten auszustatten. Folglich lernt VisFocus, seine Aufmerksamkeit auf Textabschnitte zu lenken, die für die bereitgestellte Anweisung relevant sind. Unsere Experimente zeigen, dass dieser anweisungsgesteuerte visuelle Kodierungsansatz die Leistung signifikant verbessert und Spitzenleistungen auf verschiedenen Benchmarks erzielt.

SciCode: Ein von Wissenschaftlern kuratierter Forschungs-Codierungsmaßstab
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

ByMinyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng

Da Sprachmodelle (LMs) nun viele anspruchsvolle Aufgaben besser bewältigen als durchschnittliche Menschen, wird es zunehmend schwieriger, anspruchsvolle, hochwertige und realistische Bewertungen zu entwickeln. Wir gehen dieses Problem an, indem wir die Fähigkeiten von LMs untersuchen, Code zur Lösung realer wissenschaftlicher Forschungsprobleme zu generieren. Unter Einbeziehung von Eingaben von Wissenschaftlern und KI-Forschern in 16 verschiedenen naturwissenschaftlichen Teilbereichen, darunter Mathematik, Physik, Chemie, Biologie und Materialwissenschaft, haben wir einen von Wissenschaftlern kuratierten Codierungs-Benchmark namens SciCode erstellt. Die Probleme in SciCode lassen sich natürlich in mehrere Teilprobleme zerlegen, die jeweils Wissensabruf, Schlussfolgerungen und Codesynthese beinhalten. Insgesamt enthält SciCode 338 Teilprobleme, die aus 80 anspruchsvollen Hauptproblemen abgeleitet sind. Es bietet optionale Beschreibungen, die nützliche wissenschaftliche Hintergrundinformationen angeben, sowie von Wissenschaftlern annotierte Goldstandard-Lösungen und Testfälle zur Bewertung. Claude3.5-Sonnet, das am besten abschneidende Modell unter den getesteten, kann nur 4,6 % der Probleme in der realistischsten Umgebung lösen. Wir sind der Meinung, dass SciCode sowohl den Fortschritt zeitgenössischer LMs bei der Entwicklung zu hilfreichen wissenschaftlichen Assistenten zeigt als auch Einblicke in die Entwicklung und Bewertung wissenschaftlicher KI in der Zukunft gewährt.

Die Vision des autonomen Rechnens: Können LLMs sie zur Realität machen?
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Die Vision des Autonomen Rechnens (ACV), die vor über zwei Jahrzehnten vorgeschlagen wurde, sieht Rechensysteme vor, die sich selbst verwalten, ähnlich wie biologische Organismen, und sich nahtlos an sich ändernde Umgebungen anpassen. Trotz jahrzehntelanger Forschung bleibt die Realisierung von ACV aufgrund der dynamischen und komplexen Natur moderner Rechensysteme eine Herausforderung. Die jüngsten Fortschritte bei Großen Sprachmodellen (LLMs) bieten vielversprechende Lösungen für diese Herausforderungen, indem sie ihr umfangreiches Wissen, ihr Sprachverständnis und ihre Fähigkeiten zur Aufgabenautomatisierung nutzen. Dieser Artikel untersucht die Machbarkeit der Verwirklichung von ACV durch ein auf LLMs basierendes Multi-Agenten-Framework für das Management von Mikroservices. Wir stellen eine fünfstufige Taxonomie für die autonome Service-Wartung vor und präsentieren einen Online-Evaluierungsbenchmark, der auf dem Sock Shop Mikroservice-Demoprojekt basiert, um die Leistung unseres Frameworks zu bewerten. Unsere Ergebnisse zeigen signifikante Fortschritte bei der Erreichung von Autonomiestufe 3 auf und betonen die Wirksamkeit von LLMs bei der Erkennung und Behebung von Problemen innerhalb von Mikroservice-Architekturen. Diese Studie trägt zur Weiterentwicklung des autonomen Rechnens bei, indem sie die Integration von LLMs in Mikroservice-Management-Frameworks vorantreibt und den Weg für adaptivere und selbstverwaltende Rechensysteme ebnet. Der Code wird unter https://aka.ms/ACV-LLM verfügbar sein.

Schnelle Matrixmultiplikationen für Lookup-Tabellen-quantisierte LLMs.
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

Die Bereitstellung großer Sprachmodelle (LLMs) wird oft durch den Speicherbandbreite eingeschränkt, wobei der Hauptengpass die Kosten für die Übertragung der Modellparameter vom globalen Speicher der GPU in ihre Register sind. In Verbindung mit benutzerdefinierten Kernels, die die Dequantisierungs- und Matmul-Operationen verschmelzen, kann die Gewichtsquantisierung somit durch die Reduzierung der Menge an Speicherbewegungen schnellere Inferenzen ermöglichen. Die Entwicklung von leistungsstarken Kernels für gewichtsquantisierte LLMs birgt jedoch erhebliche Herausforderungen, insbesondere wenn die Gewichte auf nicht gleichmäßig teilbare Bitbreiten (z. B. 3 Bits) mit nicht einheitlicher, Lookup-Tabellen (LUT) Quantisierung komprimiert sind. In diesem Papier wird FLUTE beschrieben, eine flexible Lookup-Tabellen-Engine für LUT-quantisierte LLMs, die die offline-Umstrukturierung der quantisierten Gewichtsmatrix zur Minimierung von Bitmanipulationen im Zusammenhang mit dem Entpacken sowie die Vektorisierung und Duplizierung der Lookup-Tabelle zur Minderung von gemeinsamen Speicherbandbreitenbeschränkungen verwendet. Bei Batch-Größen < 32 und einer Quantisierungsgruppengröße von 128 (typisch bei LLM-Inferenzen) kann der FLUTE-Kernel 2-4x schneller sein als bestehende GEMM-Kernels. Als Anwendung von FLUTE untersuchen wir eine einfache Erweiterung der Lookup-Tabellen-basierten NormalFloat-Quantisierung und wenden sie auf die Quantisierung von LLaMA3 in verschiedenen Konfigurationen an, wobei wir eine wettbewerbsfähige Quantisierungsleistung gegen starke Baselines erzielen und gleichzeitig eine End-to-End-Durchsatzsteigerung von 1,5 bis 2 Mal erzielen.

Phi-3 Sicherheit nach dem Training: Ausrichtung von Sprachmodellen mit einem "Break-Fix"-Zyklus
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

ByEmman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler

Neue Entwicklungen im Training von Sprachmodellen haben gezeigt, dass es möglich ist, hochperformante Modelle zu erstellen, die klein genug sind, um auf einem Smartphone ausgeführt zu werden. Da diese Modelle in einer zunehmenden Anzahl von Bereichen eingesetzt werden, ist es entscheidend sicherzustellen, dass sie mit menschlichen Präferenzen und Sicherheitsüberlegungen in Einklang stehen. In diesem Bericht stellen wir unsere Methodik zur Sicherheitsausrichtung der Phi-3-Serie von Sprachmodellen vor. Wir haben einen "Break-Fix"-Zyklus verwendet, der mehrere Runden der Datensatzkuratierung, Sicherheitsnachbearbeitung, Benchmarking, Red Teaming und Identifizierung von Schwachstellen durchgeführt hat, um eine Vielzahl von Schadensbereichen in sowohl Einzel- als auch Mehrfachdurchläufen abzudecken. Unsere Ergebnisse deuten darauf hin, dass dieser Ansatz die Leistung der Phi-3-Modelle iterativ über eine breite Palette von verantwortungsvollen KI-Benchmarks verbessert hat.

Visuelle Textgenerierung in freier Wildbahn
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

In letzter Zeit hat das Feld der visuellen Textgenerierung dank der schnellen Fortschritte bei generativen Modellen signifikante Fortschritte gemacht. Es bleibt jedoch eine Herausforderung, hochwertige Textbilder in realen Szenarien zu erzeugen, da drei wesentliche Kriterien erfüllt sein müssen: (1) Treue: Die generierten Textbilder sollten fotorealistisch sein und die Inhalte sollten den in den gegebenen Bedingungen festgelegten entsprechen; (2) Vernünftigkeit: Die Regionen und Inhalte des generierten Texts sollten mit der Szene zusammenhängen; (3) Nützlichkeit: Die generierten Textbilder können verwandte Aufgaben (z. B. Texterkennung und -erkennung) erleichtern. Bei der Untersuchung stellen wir fest, dass bestehende Methoden, ob auf Rendering- oder Diffusionsbasis, kaum alle diese Aspekte gleichzeitig erfüllen können, was ihren Anwendungsbereich einschränkt. Daher schlagen wir in diesem Papier einen visuellen Textgenerator vor (bezeichnet als SceneVTG), der hochwertige Textbilder in freier Wildbahn erzeugen kann. SceneVTG nutzt ein Multimodales Großes Sprachmodell in einem Zwei-Stufen-Paradigma, um vernünftige Textregionen und -inhalte über mehrere Maßstäbe und Ebenen hinweg zu empfehlen, die von einem bedingten Diffusionsmodell als Bedingungen zur Generierung von Textbildern verwendet werden. Umfangreiche Experimente zeigen, dass der vorgeschlagene SceneVTG in Bezug auf Treue und Vernünftigkeit signifikant besser abschneidet als traditionelle Rendering-basierte Methoden und aktuelle Diffusions-basierte Methoden. Darüber hinaus bieten die generierten Bilder eine überlegene Nützlichkeit für Aufgaben, die Texterkennung und -erkennung beinhalten. Code und Datensätze sind auf AdvancedLiterateMachinery verfügbar.

Vorausspringen: Verbesserung der Rekonstruktionsgenauigkeit mit JumpReLU Sparse Autoencodern.
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

Sparse Autoencoder (SAE) sind ein vielversprechender unüberwachter Ansatz zur Identifizierung von kausal relevanten und interpretierbaren linearen Merkmalen in den Aktivierungen eines Sprachmodells (LM). Um für nachgelagerte Aufgaben nützlich zu sein, müssen SAEs die Aktivierungen des LM treu zerlegen; jedoch muss die Zerlegung spärlich sein, um interpretierbar zu sein - zwei Ziele, die sich widersprechen. In diesem Paper stellen wir JumpReLU SAEs vor, die im Vergleich zu anderen aktuellen Fortschritten wie Gated und TopK SAEs einen State-of-the-Art Rekonstruktionsfidelität bei einem gegebenen Sparsamkeitsniveau auf Gemma 2 9B-Aktivierungen erreichen. Wir zeigen auch, dass diese Verbesserung nicht auf Kosten der Interpretierbarkeit erfolgt, durch manuelle und automatisierte Interpretierbarkeitsstudien. JumpReLU SAEs sind eine einfache Modifikation von Vanilla (ReLU) SAEs - bei der wir die ReLU durch eine diskontinuierliche JumpReLU-Aktivierungsfunktion ersetzen - und sind ähnlich effizient im Training und Betrieb. Durch die Verwendung von Straight-Through-Schätzern (STEs) auf eine fundierte Weise zeigen wir, wie es möglich ist, JumpReLU SAEs effektiv zu trainieren, trotz der diskontinuierlichen JumpReLU-Funktion, die im Vorwärtspass des SAE eingeführt wird. Ebenso nutzen wir STEs, um L0 direkt auf Sparsamkeit zu trainieren, anstatt auf Proxys wie L1 zu trainieren, um Probleme wie Schrumpfung zu vermeiden.

PlacidDreamer: Fortschritte bei der Harmonisierung in der Text-zu-3D-Generierung
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

In letzter Zeit hat die Text-zu-3D-Generierung erhebliche Aufmerksamkeit erregt und zu bemerkenswerten Leistungsverbesserungen geführt. Frühere Methoden nutzen End-to-End-3D-Generierungsmodelle zur Initialisierung von 3D-Gaußschen, Multi-View-Diffusionsmodelle zur Durchsetzung von Multi-View-Konsistenz und Text-zu-Bild-Diffusionsmodelle zur Verfeinerung von Details mit Score-Destillationsalgorithmen. Diese Methoden weisen jedoch zwei Einschränkungen auf. Erstens treten Konflikte in den Generierungsrichtungen auf, da verschiedene Modelle darauf abzielen, vielfältige 3D-Ressourcen zu erzeugen. Zweitens wurde das Problem der Über-Sättigung in der Score-Destillation nicht gründlich untersucht und gelöst. Um diese Einschränkungen anzugehen, schlagen wir PlacidDreamer vor, ein Text-zu-3D-Framework, das Initialisierung, Multi-View-Generierung und textkonditionierte Generierung mit einem einzigen Multi-View-Diffusionsmodell harmonisiert und gleichzeitig einen neuartigen Score-Destillationsalgorithmus einsetzt, um eine ausgewogene Sättigung zu erreichen. Um die Generierungsrichtung zu vereinheitlichen, führen wir das Latent-Plane-Modul ein, eine benutzerfreundliche Plug-in-Erweiterung, die es Multi-View-Diffusionsmodellen ermöglicht, eine schnelle Geometrierekonstruktion für die Initialisierung bereitzustellen und verbesserte Multi-View-Bilder zur Personalisierung des Text-zu-Bild-Diffusionsmodells zu liefern. Um das Problem der Über-Sättigung anzugehen, schlagen wir vor, die Score-Destillation als ein Multi-Objektiv-Optimierungsproblem zu betrachten und den Balanced Score Destillation-Algorithmus einzuführen, der eine Pareto-optimale Lösung bietet, die sowohl reichhaltige Details als auch ausgewogene Sättigung erreicht. Umfangreiche Experimente bestätigen die herausragenden Fähigkeiten unseres PlacidDreamer. Der Code ist verfügbar unter https://github.com/HansenHuang0823/PlacidDreamer.

Effiziente Audiobeschreibung mit Wissensverdichtung auf Encoder-Ebene.
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

Mit den neuesten Modellen wurden signifikante Verbesserungen in der automatischen Audio-Beschriftung (AAC) erzielt. Allerdings sind diese Modelle aufgrund ihrer gesteigerten Leistungsfähigkeit zunehmend größer geworden. In dieser Arbeit schlagen wir ein Wissensvermittlungs (KD) Framework für AAC vor. Unsere Analyse zeigt, dass es bei den auf Encoder-Decoder basierenden AAC-Modellen effektiver ist, Wissen in den Encoder zu vermitteln im Vergleich zum Decoder. Zu diesem Zweck integrieren wir einen KD-Verlust auf Encoder-Ebene in das Training, zusätzlich zum standardmäßigen überwachten Verlust und dem KD-Verlust auf Sequenzebene. Wir untersuchen zwei KD-Methoden auf Encoder-Ebene, basierend auf dem mittleren quadratischen Fehler (MSE) und dem kontrastiven Verlust. Experimentelle Ergebnisse zeigen, dass der kontrastive KD robuster ist als der MSE KD und eine überlegene Leistung in datenarmen Situationen aufweist. Durch die Nutzung von ausschließlich Audio-Daten im Training im KD-Framework erreicht unser Schülermodell eine wettbewerbsfähige Leistung, mit einer Inferenzgeschwindigkeit, die 19-mal schneller ist. Eine Online-Demo ist verfügbar unter \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.

SparseCraft: Neuronale Rekonstruktion mit wenigen Aufnahmen durch stereopsis-geführte geometrische Linearisierung
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma

Wir präsentieren einen innovativen Ansatz zur Wiederherstellung von 3D-Form und ansichtsabhängigem Erscheinungsbild aus wenigen farbigen Bildern, der eine effiziente 3D-Rekonstruktion und die Synthese neuer Ansichten ermöglicht. Unsere Methode lernt eine implizite neuronale Repräsentation in Form einer Signierten Distanzfunktion (SDF) und eines Strahlungsfelds. Das Modell wird progressiv durch Ray-Marching-fähiges volumetrisches Rendern trainiert und mit lernfreien Multi-View-Stereo (MVS)-Hinweisen reguliert. Schlüssel zu unserem Beitrag ist eine neuartige implizite neuronale Formfunktionslernstrategie, die unsere SDF-Feld dazu ermutigt, so linear wie möglich in der Nähe des Niveausatzes zu sein, um das Training gegen Rauschen aus den Überwachungs- und Regularisierungssignalen zu robustifizieren. Ohne Verwendung von vortrainierten Priors erreicht unsere Methode, genannt SparseCraft, Spitzenleistungen sowohl bei der Synthese von neuen Ansichten als auch bei der Rekonstruktion aus spärlichen Ansichten in Standard-Benchmarks, wobei weniger als 10 Minuten für das Training benötigt werden.

Interne Konsistenz und Selbst-Feedback in großen Sprachmodellen: Eine Übersicht
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li