papers.title

papers.description

ReFT: Feinanpassung der Repräsentation für Sprachmodelle
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

100

Methoden zur parameter-effizienten Feinabstimmung (PEFT) zielen darauf ab, große Modelle durch Aktualisierungen einer geringen Anzahl von Gewichten anzupassen. Allerdings haben viele frühere Arbeiten zur Interpretierbarkeit gezeigt, dass Repräsentationen reiche semantische Informationen codieren, was darauf hindeutet, dass die Bearbeitung von Repräsentationen eine leistungsstärkere Alternative sein könnte. Hier verfolgen wir diese Hypothese, indem wir eine Familie von Repräsentationsfeinabstimmungs (ReFT) Methoden entwickeln. ReFT Methoden arbeiten mit einem eingefrorenen Basismodell und lernen aufgabenbezogene Interventionen auf versteckten Repräsentationen. Wir definieren eine starke Instanz der ReFT-Familie, die Low-Rank Lineare Unterraum ReFT (LoReFT). LoReFT ist ein Plug-and-Play-Ersatz für bestehende PEFTs und lernt Interventionen, die 10x-50x parameter-effizienter sind als bisherige state-of-the-art PEFTs. Wir präsentieren LoReFT anhand von acht Aufgaben zum gesunden Menschenverstand, vier Aufgaben zur arithmetischen Schlussfolgerung, Alpaca-Eval v1.0 und GLUE. In all diesen Bewertungen bietet LoReFT das beste Gleichgewicht zwischen Effizienz und Leistung und übertrifft fast immer state-of-the-art PEFTs. Wir veröffentlichen eine generische ReFT-Trainingsbibliothek öffentlich unter https://github.com/stanfordnlp/pyreft.

CoMat: Ausrichtung des Text-zu-Bild-Diffusionsmodells mit dem Bild-zu-Text-Konzeptabgleich
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

Diffusionsmodelle haben sich im Bereich der Text-zu-Bild-Generierung als äußerst erfolgreich erwiesen. Dennoch bleibt die Beseitigung der Diskrepanz zwischen den Textvorgaben und Bildern eine Herausforderung. Die eigentliche Ursache für diese Diskrepanz wurde bisher nicht umfassend untersucht. Wir stellen fest, dass die Diskrepanz durch unzureichende Token-Aufmerksamkeitsaktivierung verursacht wird. Dieses Phänomen führen wir weiter auf die unzureichende Bedingungsnutzung des Diffusionsmodells zurück, die durch sein Trainingsparadigma verursacht wird. Um das Problem anzugehen, schlagen wir CoMat vor, eine End-to-End-Strategie zur Feinabstimmung von Diffusionsmodellen mit einem Mechanismus zur Bild-zu-Text-Konzeptübereinstimmung. Wir nutzen ein Bildunterschriftenmodell, um die Bild-zu-Text-Ausrichtung zu messen und das Diffusionsmodell anzuleiten, ignorierte Token erneut zu betrachten. Darüber hinaus wird ein neuartiges Attributkonzentrationsmodul vorgeschlagen, um das Attributbindungsproblem zu lösen. Ohne Bild- oder menschliche Präferenzdaten verwenden wir nur 20.000 Textvorgaben, um SDXL zu feinabstimmen und CoMat-SDXL zu erhalten. Umfangreiche Experimente zeigen, dass CoMat-SDXL in zwei Text-zu-Bild-Ausrichtungsbenchmarks signifikant besser abschneidet als das Basismodell SDXL und eine Spitzenleistung erzielt.

AutoWebGLM: Bootstrap und Verstärkung eines webbasierten Navigationsagenten auf Basis eines großen Sprachmodells
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

Große Sprachmodelle (LLMs) haben viele intelligente Agentenaufgaben angetrieben, wie z. B. die Webnavigation - jedoch erfüllen die meisten bestehenden Agenten auf realen Webseiten bei weitem nicht die Anforderungen, aufgrund von drei Faktoren: (1) die Vielseitigkeit von Aktionen auf Webseiten, (2) HTML-Text, der die Verarbeitungskapazität des Modells übersteigt, und (3) die Komplexität der Entscheidungsfindung aufgrund der offenen Natur des Webs. Angesichts dieser Herausforderung entwickeln wir AutoWebGLM, einen automatisierten Webnavigationsagenten, der auf ChatGLM3-6B aufbaut und GPT-4 übertrifft. Inspiriert von menschlichen Browsermustern entwerfen wir einen HTML-Vereinfachungsalgorithmus, um Webseiten darzustellen und wichtige Informationen prägnant zu erhalten. Wir verwenden eine hybride menschlich-künstliche Intelligenz Methode, um Web-Browsing-Daten für das Lehrplantraining zu erstellen. Anschließend bootstrappen wir das Modell durch Verstärkungslernen und Ablehnungsabtastung, um die Webseite-Verständlichkeit, Browseroperationen und effiziente Aufgabenzerlegung weiter zu fördern. Für Tests richten wir einen zweisprachigen Benchmark ein - AutoWebBench - für reale Web-Browsing-Aufgaben. Wir evaluieren AutoWebGLM anhand verschiedener Webnavigations-Benchmarks, die Verbesserungen aufzeigen, aber auch zugrunde liegende Herausforderungen bei der Bewältigung realer Umgebungen. Der zugehörige Code, das Modell und die Daten werden unter https://github.com/THUDM/AutoWebGLM veröffentlicht.

MiniGPT4-Video: Weiterentwicklung von Multimodal LLMs für die Videoverarbeitung mit Verschränkten visuell-textuellen Tokens
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

Dieses Papier stellt MiniGPT4-Video vor, ein multimodales Large Language Model (LLM), das speziell für das Verstehen von Videos entwickelt wurde. Das Modell ist in der Lage, sowohl zeitliche visuelle als auch textuelle Daten zu verarbeiten, was es befähigt, die Komplexitäten von Videos zu verstehen. Aufbauend auf dem Erfolg von MiniGPT-v2, das sich beim Übersetzen visueller Merkmale in den LLM-Raum für einzelne Bilder hervortat und beeindruckende Ergebnisse in verschiedenen Bild-Text-Benchmarks erzielte, erweitert dieses Papier die Fähigkeiten des Modells, eine Sequenz von Frames zu verarbeiten, was es ihm ermöglicht, Videos zu verstehen. MiniGPT4-Video berücksichtigt nicht nur visuelle Inhalte, sondern integriert auch textuelle Gespräche, was dem Modell ermöglicht, effektiv Anfragen zu beantworten, die sowohl visuelle als auch textuelle Komponenten beinhalten. Das vorgeschlagene Modell übertrifft bestehende State-of-the-Art-Methoden und erzielt Verbesserungen von 4,22 %, 1,13 %, 20,82 % und 13,1 % bei den MSVD-, MSRVTT-, TGIF- und TVQA-Benchmarks. Unsere Modelle und der Code sind hier öffentlich verfügbar: https://vision-cair.github.io/MiniGPT4-video/

LVLM-Interpret: Ein Interpretierbarkeitswerkzeug für große Seh-Sprach-Modelle
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Apr 3

ByGabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal

In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz tauchen multimodale große Sprachmodelle als ein bedeutender Forschungsbereich auf. Diese Modelle, die verschiedene Arten von Dateneingaben kombinieren, werden zunehmend beliebter. Dennoch bleibt das Verständnis ihrer internen Mechanismen eine komplexe Aufgabe. Es wurden zahlreiche Fortschritte auf dem Gebiet der Erklärbarkeitstools und Mechanismen erzielt, dennoch gibt es noch viel zu erforschen. In dieser Arbeit stellen wir eine neuartige interaktive Anwendung vor, die darauf abzielt, die internen Mechanismen großer Bild-Sprach-Modelle zu verstehen. Unsere Benutzeroberfläche ist darauf ausgelegt, die Interpretierbarkeit der Bildausschnitte zu verbessern, die entscheidend für die Generierung einer Antwort sind, und die Wirksamkeit des Sprachmodells bei der Verankerung seiner Ausgabe im Bild zu bewerten. Mit unserer Anwendung kann ein Benutzer das Modell systematisch untersuchen und Systemgrenzen aufdecken, um Verbesserungen der Systemfähigkeiten zu ermöglichen. Abschließend präsentieren wir eine Fallstudie darüber, wie unsere Anwendung dazu beitragen kann, Fehlermechanismen in einem beliebten großen multimodalen Modell zu verstehen: LLaVA.

Training von LLMs über neuronal komprimierten Text
Training LLMs over Neurally Compressed Text

Apr 4

ByBrian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

In diesem Paper untersuchen wir die Idee, große Sprachmodelle (LLMs) über stark komprimierten Text zu trainieren. Während herkömmliche Subword-Tokenisierer Text nur geringfügig komprimieren, können neuronale Textkompressoren wesentlich höhere Kompressionsraten erreichen. Wenn es möglich wäre, LLMs direkt über neuronal komprimierten Text zu trainieren, würde dies Vorteile in Bezug auf Effizienz beim Training und Bereitstellen sowie eine einfachere Handhabung langer Textabschnitte mit sich bringen. Das Hauptproblem bei diesem Ziel ist, dass starke Kompression dazu neigt, undurchsichtige Ausgaben zu erzeugen, die sich nicht gut zum Lernen eignen. Insbesondere stellen wir fest, dass Text, der naiv über arithmetisches Codieren komprimiert wird, von LLMs nicht leicht erlernbar ist. Um dies zu überwinden, schlagen wir Equal-Info Windows vor, eine neuartige Kompressionstechnik, bei der Text in Blöcke unterteilt wird, die jeweils auf die gleiche Bitlänge komprimiert werden. Unter Verwendung dieser Methode zeigen wir effektives Lernen über neuronal komprimierten Text, das mit zunehmendem Maßstab verbessert und Byte-Level-Baselines bei Perplexität und Inferenzgeschwindigkeits-Benchmarks deutlich übertrifft. Während unsere Methode im Vergleich zu Subword-Tokenisierern für Modelle mit gleicher Parameteranzahl eine schlechtere Perplexität liefert, bietet sie den Vorteil kürzerer Sequenzlängen. Kürzere Sequenzlängen erfordern weniger autoregressive Generierungsschritte und reduzieren die Latenz. Abschließend bieten wir eine umfangreiche Analyse der Eigenschaften, die zur Erlernbarkeit beitragen, und machen konkrete Vorschläge, wie die Leistung von Hochkompressions-Tokenisierern weiter verbessert werden kann.

CodeEditorBench: Evaluierung der Code-Editierfähigkeit großer Sprachmodelle
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Apr 4

ByJiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

Große Sprachmodelle (LLMs) für Code entwickeln sich rasant weiter, wobei die Codebearbeitung als entscheidende Fähigkeit hervortritt. Wir stellen CodeEditorBench vor, ein Bewertungsrahmen, der entwickelt wurde, um die Leistung von LLMs bei Codebearbeitungsaufgaben wie Debugging, Übersetzen, Verfeinern und Anforderungswechsel rigoros zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die sich ausschließlich auf die Codegenerierung konzentrieren, betont CodeEditorBench reale Szenarien und praktische Aspekte der Softwareentwicklung. Wir kuratieren vielfältige Codierungs-Herausforderungen und Szenarien aus fünf Quellen, die verschiedene Programmiersprachen, Komplexitätsstufen und Bearbeitungsaufgaben abdecken. Die Evaluation von 19 LLMs zeigt, dass geschlossene Modelle (insbesondere Gemini-Ultra und GPT-4) in CodeEditorBench Open-Source-Modelle übertreffen und damit Unterschiede in der Leistung der Modelle basierend auf Problemarten und Eingabeempfindlichkeiten hervorheben. CodeEditorBench zielt darauf ab, Fortschritte in LLMs zu beschleunigen, indem es eine robuste Plattform zur Bewertung von Codebearbeitungsfähigkeiten bereitstellt. Wir werden alle Eingabeaufforderungen und Datensätze veröffentlichen, um der Gemeinschaft zu ermöglichen, den Datensatz zu erweitern und aufkommende LLMs zu benchmarken. Mit der Einführung von CodeEditorBench tragen wir zur Weiterentwicklung von LLMs in der Codebearbeitung bei und stellen eine wertvolle Ressource für Forscher und Praktiker bereit.

PointInfinity: Auflösungsunabhängige Punkt-Diffusionsmodelle
PointInfinity: Resolution-Invariant Point Diffusion Models

Apr 4

ByZixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu

Wir präsentieren PointInfinity, eine effiziente Familie von Diffusionsmodellen für Punktwolken. Unsere Kernidee besteht darin, eine auf Transformer basierende Architektur mit einer festen, auflösungsunabhängigen latenten Repräsentation zu verwenden. Dies ermöglicht ein effizientes Training mit Punktwolken niedriger Auflösung, während hochauflösende Punktwolken während der Inferenz generiert werden können. Darüber hinaus zeigen wir, dass die Skalierung der Auflösung zur Testzeit über die Trainingsauflösung hinaus die Qualität der generierten Punktwolken und Oberflächen verbessert. Wir analysieren dieses Phänomen und stellen eine Verbindung zu klassenfreier Führung her, die in Diffusionsmodellen häufig verwendet wird, und zeigen, dass beide es ermöglichen, Qualität und Variabilität während der Inferenz gegeneinander abzuwägen. Experimente anhand von CO3D zeigen, dass PointInfinity effizient hochauflösende Punktwolken (bis zu 131k Punkte, 31-mal mehr als Point-E) mit modernster Qualität generieren kann.

Rote Teamentwicklung von GPT-4V: Sind GPT-4V sicher gegen Uni-/Multi-Modale Gefängnisausbruchsangriffe?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu

Verschiedene Jailbreak-Angriffe wurden vorgeschlagen, um Large Language Models (LLMs) im Red-Team zu testen und die anfälligen Sicherheitsvorkehrungen von LLMs aufzudecken. Einige Methoden beschränken sich nicht nur auf die textuelle Modalität, sondern erweitern den Jailbreak-Angriff auf Multimodal Large Language Models (MLLMs), indem sie die visuelle Eingabe verändern. Allerdings erschwert das Fehlen eines universellen Bewertungsmaßstabs die Reproduktion der Leistung und den fairen Vergleich. Zudem fehlt eine umfassende Bewertung von Closed-Source State-of-the-Art (SOTA)-Modellen, insbesondere MLLMs wie GPT-4V. Um diese Probleme anzugehen, baut diese Arbeit zunächst einen umfassenden Jailbreak-Bewertungsdatensatz mit 1445 schädlichen Fragen auf, die 11 verschiedene Sicherheitsrichtlinien abdecken. Basierend auf diesem Datensatz werden umfangreiche Red-Teaming-Experimente an 11 verschiedenen LLMs und MLLMs durchgeführt, einschließlich sowohl SOTA-Proprietärmodelle als auch Open-Source-Modelle. Anschließend wird eine eingehende Analyse der bewerteten Ergebnisse durchgeführt und festgestellt, dass (1) GPT4 und GPT-4V eine bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source LLMs und MLLMs zeigen. (2) Llama2 und Qwen-VL-Chat sind im Vergleich zu anderen Open-Source-Modellen robuster. (3) Die Übertragbarkeit von visuellen Jailbreak-Methoden ist im Vergleich zu textuellen Jailbreak-Methoden relativ begrenzt. Der Datensatz und der Code sind hier zu finden: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.

RALL-E: Robustes Codec-Sprachmodell mit Ketten-Gedanken-Anregung für die Text-zu-Sprache-Synthese
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao

Wir präsentieren RALL-E, eine robuste Methode für die Modellierung von Sprache zur Synthese von Text-zu-Sprache (TTS). Während frühere Arbeiten, die auf großen Sprachmodellen (LLMs) basieren, beeindruckende Leistungen bei der TTS ohne vorheriges Training zeigen, leiden solche Methoden oft unter mangelnder Robustheit, wie instabiler Prosodie (seltsame Tonhöhe und Rhythmus/Dauer) und einer hohen Wortfehlerrate (WER), aufgrund des autoregressiven Vorhersagestils von Sprachmodellen. Die Kernidee hinter RALL-E ist das "Chain-of-Thought" (CoT)-Prompting, das die Aufgabe in einfachere Schritte zerlegt, um die Robustheit von LLM-basierten TTS zu verbessern. Um diese Idee umzusetzen, sagt RALL-E zunächst Prosodie-Merkmale (Tonhöhe und Dauer) des Eingabetextes vorher und verwendet sie als Zwischenbedingungen, um Sprachtoken in einem CoT-Stil vorherzusagen. Zweitens nutzt RALL-E das vorhergesagte Dauer-Prompt, um die Berechnung der Self-Attention-Gewichte im Transformer zu lenken und das Modell dazu zu zwingen, sich auf die entsprechenden Phoneme und Prosodie-Merkmale zu konzentrieren, wenn es Sprachtoken vorhersagt. Die Ergebnisse umfassender objektiver und subjektiver Bewertungen zeigen, dass RALL-E im Vergleich zu einer leistungsstarken Basismethode VALL-E die WER der TTS ohne vorheriges Training signifikant verbessert, von 6,3% (ohne Neusortierung) und 2,1% (mit Neusortierung) auf jeweils 2,8% und 1,0%. Darüber hinaus zeigen wir, dass RALL-E Sätze korrekt synthetisiert, die für VALL-E schwierig sind, und den Fehleranteil von 68% auf 4% reduziert.

papers.title

papers.description

ReFT: Feinanpassung der Repräsentation für Sprachmodelle
ReFT: Representation Finetuning for Language Models

Apr 4

ByZhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts

100

CoMat: Ausrichtung des Text-zu-Bild-Diffusionsmodells mit dem Bild-zu-Text-Konzeptabgleich
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Apr 4

ByDongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

AutoWebGLM: Bootstrap und Verstärkung eines webbasierten Navigationsagenten auf Basis eines großen Sprachmodells
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

Apr 4

ByHanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang

MiniGPT4-Video: Weiterentwicklung von Multimodal LLMs für die Videoverarbeitung mit Verschränkten visuell-textuellen Tokens
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Apr 4

ByKirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu, Jian Ding, Mohamed Elhoseiny

LVLM-Interpret: Ein Interpretierbarkeitswerkzeug für große Seh-Sprach-Modelle
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Apr 3

ByGabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal

Training von LLMs über neuronal komprimierten Text
Training LLMs over Neurally Compressed Text

Apr 4

ByBrian Lester, Jaehoon Lee, Alex Alemi, Jeffrey Pennington, Adam Roberts, Jascha Sohl-Dickstein, Noah Constant

CodeEditorBench: Evaluierung der Code-Editierfähigkeit großer Sprachmodelle
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

Apr 4

ByJiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

PointInfinity: Auflösungsunabhängige Punkt-Diffusionsmodelle
PointInfinity: Resolution-Invariant Point Diffusion Models

Apr 4

ByZixuan Huang, Justin Johnson, Shoubhik Debnath, James M. Rehg, Chao-Yuan Wu

Rote Teamentwicklung von GPT-4V: Sind GPT-4V sicher gegen Uni-/Multi-Modale Gefängnisausbruchsangriffe?
Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks?

Apr 4

ByShuo Chen, Zhen Han, Bailan He, Zifeng Ding, Wenqian Yu, Philip Torr, Volker Tresp, Jindong Gu

RALL-E: Robustes Codec-Sprachmodell mit Ketten-Gedanken-Anregung für die Text-zu-Sprache-Synthese
RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis

Apr 4

ByDetai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao