Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Methoden zur parameter-effizienten Feinabstimmung (PEFT) zielen darauf ab, große Modelle durch Aktualisierungen einer geringen Anzahl von Gewichten anzupassen. Allerdings haben viele frühere Arbeiten zur Interpretierbarkeit gezeigt, dass Repräsentationen reiche semantische Informationen codieren, was darauf hindeutet, dass die Bearbeitung von Repräsentationen eine leistungsstärkere Alternative sein könnte. Hier verfolgen wir diese Hypothese, indem wir eine Familie von Repräsentationsfeinabstimmungs (ReFT) Methoden entwickeln. ReFT Methoden arbeiten mit einem eingefrorenen Basismodell und lernen aufgabenbezogene Interventionen auf versteckten Repräsentationen. Wir definieren eine starke Instanz der ReFT-Familie, die Low-Rank Lineare Unterraum ReFT (LoReFT). LoReFT ist ein Plug-and-Play-Ersatz für bestehende PEFTs und lernt Interventionen, die 10x-50x parameter-effizienter sind als bisherige state-of-the-art PEFTs. Wir präsentieren LoReFT anhand von acht Aufgaben zum gesunden Menschenverstand, vier Aufgaben zur arithmetischen Schlussfolgerung, Alpaca-Eval v1.0 und GLUE. In all diesen Bewertungen bietet LoReFT das beste Gleichgewicht zwischen Effizienz und Leistung und übertrifft fast immer state-of-the-art PEFTs. Wir veröffentlichen eine generische ReFT-Trainingsbibliothek öffentlich unter https://github.com/stanfordnlp/pyreft.
Diffusionsmodelle haben sich im Bereich der Text-zu-Bild-Generierung als äußerst erfolgreich erwiesen. Dennoch bleibt die Beseitigung der Diskrepanz zwischen den Textvorgaben und Bildern eine Herausforderung. Die eigentliche Ursache für diese Diskrepanz wurde bisher nicht umfassend untersucht. Wir stellen fest, dass die Diskrepanz durch unzureichende Token-Aufmerksamkeitsaktivierung verursacht wird. Dieses Phänomen führen wir weiter auf die unzureichende Bedingungsnutzung des Diffusionsmodells zurück, die durch sein Trainingsparadigma verursacht wird. Um das Problem anzugehen, schlagen wir CoMat vor, eine End-to-End-Strategie zur Feinabstimmung von Diffusionsmodellen mit einem Mechanismus zur Bild-zu-Text-Konzeptübereinstimmung. Wir nutzen ein Bildunterschriftenmodell, um die Bild-zu-Text-Ausrichtung zu messen und das Diffusionsmodell anzuleiten, ignorierte Token erneut zu betrachten. Darüber hinaus wird ein neuartiges Attributkonzentrationsmodul vorgeschlagen, um das Attributbindungsproblem zu lösen. Ohne Bild- oder menschliche Präferenzdaten verwenden wir nur 20.000 Textvorgaben, um SDXL zu feinabstimmen und CoMat-SDXL zu erhalten. Umfangreiche Experimente zeigen, dass CoMat-SDXL in zwei Text-zu-Bild-Ausrichtungsbenchmarks signifikant besser abschneidet als das Basismodell SDXL und eine Spitzenleistung erzielt.
Dieses Papier stellt MiniGPT4-Video vor, ein multimodales Large Language Model (LLM), das speziell für das Verstehen von Videos entwickelt wurde. Das Modell ist in der Lage, sowohl zeitliche visuelle als auch textuelle Daten zu verarbeiten, was es befähigt, die Komplexitäten von Videos zu verstehen. Aufbauend auf dem Erfolg von MiniGPT-v2, das sich beim Übersetzen visueller Merkmale in den LLM-Raum für einzelne Bilder hervortat und beeindruckende Ergebnisse in verschiedenen Bild-Text-Benchmarks erzielte, erweitert dieses Papier die Fähigkeiten des Modells, eine Sequenz von Frames zu verarbeiten, was es ihm ermöglicht, Videos zu verstehen. MiniGPT4-Video berücksichtigt nicht nur visuelle Inhalte, sondern integriert auch textuelle Gespräche, was dem Modell ermöglicht, effektiv Anfragen zu beantworten, die sowohl visuelle als auch textuelle Komponenten beinhalten. Das vorgeschlagene Modell übertrifft bestehende State-of-the-Art-Methoden und erzielt Verbesserungen von 4,22 %, 1,13 %, 20,82 % und 13,1 % bei den MSVD-, MSRVTT-, TGIF- und TVQA-Benchmarks. Unsere Modelle und der Code sind hier öffentlich verfügbar: https://vision-cair.github.io/MiniGPT4-video/
In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz tauchen multimodale große Sprachmodelle als ein bedeutender Forschungsbereich auf. Diese Modelle, die verschiedene Arten von Dateneingaben kombinieren, werden zunehmend beliebter. Dennoch bleibt das Verständnis ihrer internen Mechanismen eine komplexe Aufgabe. Es wurden zahlreiche Fortschritte auf dem Gebiet der Erklärbarkeitstools und Mechanismen erzielt, dennoch gibt es noch viel zu erforschen. In dieser Arbeit stellen wir eine neuartige interaktive Anwendung vor, die darauf abzielt, die internen Mechanismen großer Bild-Sprach-Modelle zu verstehen. Unsere Benutzeroberfläche ist darauf ausgelegt, die Interpretierbarkeit der Bildausschnitte zu verbessern, die entscheidend für die Generierung einer Antwort sind, und die Wirksamkeit des Sprachmodells bei der Verankerung seiner Ausgabe im Bild zu bewerten. Mit unserer Anwendung kann ein Benutzer das Modell systematisch untersuchen und Systemgrenzen aufdecken, um Verbesserungen der Systemfähigkeiten zu ermöglichen. Abschließend präsentieren wir eine Fallstudie darüber, wie unsere Anwendung dazu beitragen kann, Fehlermechanismen in einem beliebten großen multimodalen Modell zu verstehen: LLaVA.
In diesem Paper untersuchen wir die Idee, große Sprachmodelle (LLMs) über stark komprimierten Text zu trainieren. Während herkömmliche Subword-Tokenisierer Text nur geringfügig komprimieren, können neuronale Textkompressoren wesentlich höhere Kompressionsraten erreichen. Wenn es möglich wäre, LLMs direkt über neuronal komprimierten Text zu trainieren, würde dies Vorteile in Bezug auf Effizienz beim Training und Bereitstellen sowie eine einfachere Handhabung langer Textabschnitte mit sich bringen. Das Hauptproblem bei diesem Ziel ist, dass starke Kompression dazu neigt, undurchsichtige Ausgaben zu erzeugen, die sich nicht gut zum Lernen eignen. Insbesondere stellen wir fest, dass Text, der naiv über arithmetisches Codieren komprimiert wird, von LLMs nicht leicht erlernbar ist. Um dies zu überwinden, schlagen wir Equal-Info Windows vor, eine neuartige Kompressionstechnik, bei der Text in Blöcke unterteilt wird, die jeweils auf die gleiche Bitlänge komprimiert werden. Unter Verwendung dieser Methode zeigen wir effektives Lernen über neuronal komprimierten Text, das mit zunehmendem Maßstab verbessert und Byte-Level-Baselines bei Perplexität und Inferenzgeschwindigkeits-Benchmarks deutlich übertrifft. Während unsere Methode im Vergleich zu Subword-Tokenisierern für Modelle mit gleicher Parameteranzahl eine schlechtere Perplexität liefert, bietet sie den Vorteil kürzerer Sequenzlängen. Kürzere Sequenzlängen erfordern weniger autoregressive Generierungsschritte und reduzieren die Latenz. Abschließend bieten wir eine umfangreiche Analyse der Eigenschaften, die zur Erlernbarkeit beitragen, und machen konkrete Vorschläge, wie die Leistung von Hochkompressions-Tokenisierern weiter verbessert werden kann.
Große Sprachmodelle (LLMs) für Code entwickeln sich rasant weiter, wobei die Codebearbeitung als entscheidende Fähigkeit hervortritt. Wir stellen CodeEditorBench vor, ein Bewertungsrahmen, der entwickelt wurde, um die Leistung von LLMs bei Codebearbeitungsaufgaben wie Debugging, Übersetzen, Verfeinern und Anforderungswechsel rigoros zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die sich ausschließlich auf die Codegenerierung konzentrieren, betont CodeEditorBench reale Szenarien und praktische Aspekte der Softwareentwicklung. Wir kuratieren vielfältige Codierungs-Herausforderungen und Szenarien aus fünf Quellen, die verschiedene Programmiersprachen, Komplexitätsstufen und Bearbeitungsaufgaben abdecken. Die Evaluation von 19 LLMs zeigt, dass geschlossene Modelle (insbesondere Gemini-Ultra und GPT-4) in CodeEditorBench Open-Source-Modelle übertreffen und damit Unterschiede in der Leistung der Modelle basierend auf Problemarten und Eingabeempfindlichkeiten hervorheben. CodeEditorBench zielt darauf ab, Fortschritte in LLMs zu beschleunigen, indem es eine robuste Plattform zur Bewertung von Codebearbeitungsfähigkeiten bereitstellt. Wir werden alle Eingabeaufforderungen und Datensätze veröffentlichen, um der Gemeinschaft zu ermöglichen, den Datensatz zu erweitern und aufkommende LLMs zu benchmarken. Mit der Einführung von CodeEditorBench tragen wir zur Weiterentwicklung von LLMs in der Codebearbeitung bei und stellen eine wertvolle Ressource für Forscher und Praktiker bereit.
Wir präsentieren PointInfinity, eine effiziente Familie von Diffusionsmodellen für Punktwolken. Unsere Kernidee besteht darin, eine auf Transformer basierende Architektur mit einer festen, auflösungsunabhängigen latenten Repräsentation zu verwenden. Dies ermöglicht ein effizientes Training mit Punktwolken niedriger Auflösung, während hochauflösende Punktwolken während der Inferenz generiert werden können. Darüber hinaus zeigen wir, dass die Skalierung der Auflösung zur Testzeit über die Trainingsauflösung hinaus die Qualität der generierten Punktwolken und Oberflächen verbessert. Wir analysieren dieses Phänomen und stellen eine Verbindung zu klassenfreier Führung her, die in Diffusionsmodellen häufig verwendet wird, und zeigen, dass beide es ermöglichen, Qualität und Variabilität während der Inferenz gegeneinander abzuwägen. Experimente anhand von CO3D zeigen, dass PointInfinity effizient hochauflösende Punktwolken (bis zu 131k Punkte, 31-mal mehr als Point-E) mit modernster Qualität generieren kann.
Verschiedene Jailbreak-Angriffe wurden vorgeschlagen, um Large Language Models (LLMs) im Red-Team zu testen und die anfälligen Sicherheitsvorkehrungen von LLMs aufzudecken. Einige Methoden beschränken sich nicht nur auf die textuelle Modalität, sondern erweitern den Jailbreak-Angriff auf Multimodal Large Language Models (MLLMs), indem sie die visuelle Eingabe verändern. Allerdings erschwert das Fehlen eines universellen Bewertungsmaßstabs die Reproduktion der Leistung und den fairen Vergleich. Zudem fehlt eine umfassende Bewertung von Closed-Source State-of-the-Art (SOTA)-Modellen, insbesondere MLLMs wie GPT-4V. Um diese Probleme anzugehen, baut diese Arbeit zunächst einen umfassenden Jailbreak-Bewertungsdatensatz mit 1445 schädlichen Fragen auf, die 11 verschiedene Sicherheitsrichtlinien abdecken. Basierend auf diesem Datensatz werden umfangreiche Red-Teaming-Experimente an 11 verschiedenen LLMs und MLLMs durchgeführt, einschließlich sowohl SOTA-Proprietärmodelle als auch Open-Source-Modelle. Anschließend wird eine eingehende Analyse der bewerteten Ergebnisse durchgeführt und festgestellt, dass (1) GPT4 und GPT-4V eine bessere Robustheit gegen Jailbreak-Angriffe im Vergleich zu Open-Source LLMs und MLLMs zeigen. (2) Llama2 und Qwen-VL-Chat sind im Vergleich zu anderen Open-Source-Modellen robuster. (3) Die Übertragbarkeit von visuellen Jailbreak-Methoden ist im Vergleich zu textuellen Jailbreak-Methoden relativ begrenzt. Der Datensatz und der Code sind hier zu finden: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
Wir präsentieren RALL-E, eine robuste Methode für die Modellierung von Sprache zur Synthese von Text-zu-Sprache (TTS). Während frühere Arbeiten, die auf großen Sprachmodellen (LLMs) basieren, beeindruckende Leistungen bei der TTS ohne vorheriges Training zeigen, leiden solche Methoden oft unter mangelnder Robustheit, wie instabiler Prosodie (seltsame Tonhöhe und Rhythmus/Dauer) und einer hohen Wortfehlerrate (WER), aufgrund des autoregressiven Vorhersagestils von Sprachmodellen. Die Kernidee hinter RALL-E ist das "Chain-of-Thought" (CoT)-Prompting, das die Aufgabe in einfachere Schritte zerlegt, um die Robustheit von LLM-basierten TTS zu verbessern. Um diese Idee umzusetzen, sagt RALL-E zunächst Prosodie-Merkmale (Tonhöhe und Dauer) des Eingabetextes vorher und verwendet sie als Zwischenbedingungen, um Sprachtoken in einem CoT-Stil vorherzusagen. Zweitens nutzt RALL-E das vorhergesagte Dauer-Prompt, um die Berechnung der Self-Attention-Gewichte im Transformer zu lenken und das Modell dazu zu zwingen, sich auf die entsprechenden Phoneme und Prosodie-Merkmale zu konzentrieren, wenn es Sprachtoken vorhersagt. Die Ergebnisse umfassender objektiver und subjektiver Bewertungen zeigen, dass RALL-E im Vergleich zu einer leistungsstarken Basismethode VALL-E die WER der TTS ohne vorheriges Training signifikant verbessert, von 6,3% (ohne Neusortierung) und 2,1% (mit Neusortierung) auf jeweils 2,8% und 1,0%. Darüber hinaus zeigen wir, dass RALL-E Sätze korrekt synthetisiert, die für VALL-E schwierig sind, und den Fehleranteil von 68% auf 4% reduziert.