papers.description
Trotz der jüngsten Fortschritte bei groß angelegten Text-zu-Bild-Generierungsmodellen bleibt die Manipulation realer Bilder mit diesen Modellen eine herausfordernde Aufgabe. Die Hauptbeschränkungen bestehender Bearbeitungsmethoden bestehen darin, dass sie entweder keine konsistente Qualität bei einer Vielzahl von Bildbearbeitungen erreichen oder zeitaufwändige Hyperparameteranpassungen oder Feinabstimmungen des Diffusionsmodells erfordern, um das bildspezifische Erscheinungsbild des Eingabebildes zu bewahren. Wir schlagen einen neuartigen Ansatz vor, der auf einem modifizierten Diffusionssamplingprozess über den Leitmechanismus basiert. In dieser Arbeit untersuchen wir die Selbstleit-Technik, um die Gesamtstruktur des Eingabebildes und das Erscheinungsbild lokaler Regionen, die nicht bearbeitet werden sollen, zu bewahren. Insbesondere führen wir explizit layoutbewahrende Energiefunktionen ein, die darauf abzielen, die lokalen und globalen Strukturen des Quellbildes zu erhalten. Zusätzlich schlagen wir einen Rauschskalierungsmechanismus vor, der die Rauschverteilung bewahrt, indem er die Normen der klassifikatorfreien Führung und unserer vorgeschlagenen Führer während der Generierung ausbalanciert. Ein solcher Leitansatz erfordert weder eine Feinabstimmung des Diffusionsmodells noch einen exakten Inversionsprozess. Dadurch bietet die vorgeschlagene Methode einen schnellen und hochwertigen Bearbeitungsmechanismus. In unseren Experimenten zeigen wir durch menschliche Bewertung und quantitative Analyse, dass die vorgeschlagene Methode gewünschte Bearbeitungen ermöglicht, die von Menschen bevorzugt werden und auch einen besseren Kompromiss zwischen Bearbeitungsqualität und Bewahrung des Originalbildes erreichen. Unser Code ist verfügbar unter https://github.com/FusionBrainLab/Guide-and-Rescale.
Seit dem Aufkommen von ChatGPT haben Large Language Models (LLMs) bei verschiedenen Aufgaben hervorragende Leistungen erbracht, bleiben jedoch weitgehend Blackbox-Systeme. Folglich stützt sich ihre Entwicklung stark auf datengetriebene Ansätze, was Leistungssteigerungen durch Änderungen an der internen Architektur und Denkpfaden begrenzt. Infolgedessen haben viele Forscher begonnen, die potenziellen internen Mechanismen von LLMs zu erforschen, um die Ursachen ihrer Denkengpässe zu identifizieren, wobei sich die meisten Studien auf Aufmerksamkeitsköpfe (Attention Heads) konzentrieren. Unser Übersichtsartikel zielt darauf ab, die internen Denkprozesse von LLMs zu beleuchten, indem wir uns auf die Interpretierbarkeit und zugrundeliegenden Mechanismen von Aufmerksamkeitsköpfen konzentrieren. Wir destillieren zunächst den menschlichen Denkprozess in einen Vier-Phasen-Rahmen: Wissensabruf, In-Context-Identifikation, latentes Schließen und Ausdrucksvorbereitung. Anhand dieses Rahmens systematisiert unsere Arbeit bestehende Forschung, um die Funktionen spezifischer Aufmerksamkeitsköpfe zu identifizieren und zu kategorisieren. Darüber hinaus fassen wir die experimentellen Methoden zusammen, die zur Entdeckung dieser speziellen Köpfe verwendet werden, und unterteilen sie in zwei Kategorien: modellfreie Methoden und modellbasierte Methoden. Zudem skizzieren wir relevante Evaluierungsmethoden und Benchmarks. Abschließend diskutieren wir die Grenzen der aktuellen Forschung und schlagen mehrere potenzielle Zukunftsrichtungen vor. Unsere Referenzliste ist unter https://github.com/IAAR-Shanghai/Awesome-Attention-Heads open-source verfügbar.
Fuzzing ist eine wichtige dynamische Programmanalyse-Technik, die entwickelt wurde, um Schwachstellen in komplexer Software zu finden. Beim Fuzzing wird ein Zielprogramm mit speziell erstellten bösartigen Eingaben konfrontiert, um Abstürze, Pufferüberläufe, Speicherfehler und Ausnahmen zu verursachen. Das effiziente Erstellen solcher bösartiger Eingaben ist ein schwieriges, ungelöstes Problem, und die besten Ansätze wenden oft gleichmäßige zufällige Mutationen auf bereits vorhandene gültige Eingaben an. In dieser Arbeit schlagen wir vor, feinabgestimmte große Sprachmodelle (FuzzCoder) einzusetzen, um Muster in den Eingabedateien aus erfolgreichen Angriffen zu erlernen und zukünftige Fuzzing-Explorationen zu steuern. Konkret entwickeln wir einen Rahmen, um Code-LLMs zu nutzen, um den Mutationsprozess von Eingaben beim Fuzzing zu lenken. Der Mutationsprozess wird als Sequenz-zu-Sequenz-Modellierung formuliert, bei der das LLM eine Bytefolge empfängt und dann die mutierte Bytefolge ausgibt. FuzzCoder wird auf dem erstellten Instruktionsdatensatz (Fuzz-Instruct) feinabgestimmt, wobei die erfolgreiche Fuzzing-Historie aus dem heuristischen Fuzzing-Tool gesammelt wird. FuzzCoder kann Mutationspositionen und Strategiepositionen in Eingabedateien vorhersagen, um abnormales Programmverhalten auszulösen. Experimentelle Ergebnisse zeigen, dass FuzzCoder basierend auf AFL (American Fuzzy Lop) signifikante Verbesserungen hinsichtlich des effektiven Mutationsanteils (EPM) und der Anzahl der Abstürze (NC) für verschiedene Eingabeformate, einschließlich ELF, JPG, MP3 und XML, erzielt.
Seit den ersten Beispielen von Online-Bildung, bei denen Kurse auf zugängliche und gemeinsame Online-Plattformen hochgeladen wurden, hat diese Form der Skalierung der Verbreitung menschlichen Wissens, um ein breiteres Publikum zu erreichen, umfangreiche Diskussionen und weite Verbreitung ausgelöst. In der Erkenntnis, dass personalisiertes Lernen noch erhebliches Verbesserungspotenzial birgt, wurden kontinuierlich neue KI-Technologien in dieses Lernformat integriert, was zu einer Vielzahl von BildungskI-Anwendungen wie Bildungsempfehlungen und intelligenten Tutorensystemen führte. Das Aufkommen von Intelligenz in großen Sprachmodellen (Large Language Models, LLMs) hat es ermöglicht, diese Bildungsverbesserungen auf einem einheitlichen Grundmodell aufzubauen und eine tiefere Integration zu erreichen. In diesem Kontext schlagen wir MAIC (Massive AI-empowered Course) vor, eine neue Form der Online-Bildung, die LLM-gesteuerte Multi-Agenten-Systeme nutzt, um einen KI-angereicherten Klassenraum zu schaffen, der Skalierbarkeit mit Anpassungsfähigkeit in Einklang bringt. Über die Erforschung des konzeptionellen Rahmens und der technischen Innovationen hinaus führen wir vorläufige Experimente an der Tsinghua-Universität, einer der führenden Universitäten Chinas, durch. Gestützt auf über 100.000 Lernaufzeichnungen von mehr als 500 Studierenden erhalten wir eine Reihe wertvoller Beobachtungen und erste Analysen. Dieses Projekt wird sich weiterentwickeln und letztendlich darauf abzielen, eine umfassende Open-Platform zu etablieren, die Forschung, Technologie und Anwendungen bei der Erforschung der Möglichkeiten der Online-Bildung im Zeitalter der KI-großmodelle unterstützt und vereinheitlicht. Wir sehen diese Plattform als eine kollaborative Drehscheibe, die Bildungsexperten, Forscher und Innovatoren zusammenbringt, um gemeinsam die Zukunft der KI-gestützten Online-Bildung zu erkunden.
Die Erzeugung hochwertiger 3D-Objekte aus textuellen Beschreibungen bleibt aufgrund der hohen Rechenkosten, der Knappheit von 3D-Daten und der komplexen 3D-Darstellungen eine anspruchsvolle Aufgabe. Wir stellen Geometry Image Diffusion (GIMDiffusion) vor, ein neuartiges Text-to-3D-Modell, das Geometrie-Bilder nutzt, um 3D-Formen effizient mit 2D-Bildern darzustellen und dadurch den Bedarf an komplexen 3D-fähigen Architekturen zu vermeiden. Durch die Integration eines Collaborative Control-Mechanismus nutzen wir die umfangreichen 2D-Prioritäten bestehender Text-to-Image-Modelle wie Stable Diffusion. Dies ermöglicht eine starke Generalisierung selbst bei begrenzten 3D-Trainingsdaten (was uns erlaubt, ausschließlich hochwertige Trainingsdaten zu verwenden) sowie die Kompatibilität mit Leitfadentechniken wie IPAdapter. Kurz gesagt ermöglicht GIMDiffusion die Erzeugung von 3D-Assets mit einer Geschwindigkeit, die mit aktuellen Text-to-Image-Modellen vergleichbar ist. Die generierten Objekte bestehen aus semantisch bedeutungsvollen, separaten Teilen und beinhalten interne Strukturen, was sowohl die Benutzerfreundlichkeit als auch die Vielseitigkeit erhöht.
Multimodale Large Language Models (MLLMs) haben durch die Erhöhung der unterstützten Auflösung von Dokumentbildern vielversprechende Leistungen im Bereich des OCR-freien Dokumentenverständnisses erzielt. Dies geht jedoch mit dem Nachteil einher, dass für ein einzelnes Dokumentbild Tausende von visuellen Tokens erzeugt werden, was zu einem übermäßigen GPU-Speicherverbrauch und langsameren Inferenzzeiten führt, insbesondere beim Verständnis mehrseitiger Dokumente. In dieser Arbeit schlagen wir zur Bewältigung dieser Herausforderungen ein High-resolution DocCompressor-Modul vor, das jedes hochauflösende Dokumentbild unter Anleitung von globalen visuellen Merkmalen niedriger Auflösung auf 324 Tokens komprimiert. Mit diesem Komprimierungsmodul entwickeln wir DocOwl2 innerhalb eines dreistufigen Trainingsframeworks – Single-image Pretraining, Multi-image Continue-pretraining und Multi-task Finetuning – um die Fähigkeit zum Verständnis mehrseitiger Dokumente zu stärken und sowohl Token-Effizienz als auch Frage-Antwort-Leistung auszugleichen. DocOwl2 setzt neue Maßstäbe (State-of-the-Art) in Benchmarks für das Verständnis mehrseitiger Dokumente und reduziert die Latenzzeit bis zum ersten Token um mehr als 50 %, was fortgeschrittene Fähigkeiten in den Bereichen belegt: Beantwortung von Fragen zu mehrseitigen Dokumenten, Erklärung mit Belegseiten und seitenübergreifendes Strukturverständnis. Darüber hinaus erreicht unser DocOwl2 im Vergleich zu Einzelbild-MLLMs, die mit ähnlichen Daten trainiert wurden, eine vergleichbare Leistung beim Verständnis einzelner Seiten mit weniger als 20 % der visuellen Tokens. Unsere Codes, Modelle und Daten sind öffentlich verfügbar unter https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
Die zunehmende Verfügbarkeit von Konversationsdaten aus der Praxis eröffnet Forschenden spannende Möglichkeiten, Interaktionen zwischen Nutzern und Chatbots zu untersuchen. Allerdings macht das schiere Volumen dieser Daten eine manuelle Untersuchung einzelner Konversationen unpraktikabel. Um diese Herausforderung zu bewältigen, stellen wir WildVis vor, ein interaktives Tool, das eine schnelle, vielseitige und groß angelegte Konversationsanalyse ermöglicht. WildVis bietet Such- und Visualisierungsfunktionen im Text- und Embedding-Raum auf Basis einer Liste von Kriterien. Um Datensätze im Millionenbereich zu verwalten, haben wir Optimierungen implementiert, darunter die Erstellung von Suchindizes, Vorberechnung und Komprimierung von Embeddings sowie Caching, um reaktionsschnelle Benutzerinteraktionen innerhalb von Sekunden zu gewährleisten. Wir demonstrieren den Nutzen von WildVis anhand dreier Fallstudien: Unterstützung der Erforschung von Chatbot-Missbrauch, Visualisierung und Vergleich von Themenverteilungen in verschiedenen Datensätzen sowie Charakterisierung nutzerspezifischer Konversationsmuster. WildVis ist quelloffen und erweiterbar konzipiert, sodass zusätzliche Datensätze sowie angepasste Such- und Visualisierungsfunktionen unterstützt werden.
Die Formelerkennung stellt aufgrund der komplexen Struktur und variablen Notation mathematischer Ausdrücke erhebliche Herausforderungen dar. Trotz kontinuierlicher Fortschritte bei Formelerkennungsmodellen weisen die von diesen Modellen verwendeten Evaluierungsmetriken, wie BLEU und Edit Distance, nach wie vor bemerkenswerte Einschränkungen auf. Sie übersehen die Tatsache, dass dieselbe Formel diverse Darstellungen besitzt und höchst sensibel auf die Verteilung der Trainingsdaten reagiert, was folglich zu Ungerechtigkeiten bei der Bewertung der Formelerkennung führt. Zu diesem Zweck schlagen wir eine Character Detection Matching (CDM)-Metrik vor, die die Bewertungsobjektivität durch die Entwicklung einer bildbasierten anstelle einer LaTeX-basierten Metrik gewährleistet. Konkret rendert CDM sowohl die vom Modell vorhergesagten LaTeX-Formeln als auch die Ground-Truth-LaTeX-Formeln in bildformatierte Formeln, setzt dann Techniken zur visuellen Merkmalsextraktion und Lokalisierung für eine präzise zeichenweise Zuordnung ein und integriert räumliche Positionsinformationen. Eine derart raumbewusste und zeichenzuordnende Methode bietet im Vergleich zu früheren BLEU- und Edit-Distance-Metriken, die ausschließlich auf textbasierter Zeichenzuordnung beruhen, eine genauere und gerechtere Bewertung. Experimentell bewerteten wir verschiedene Formelerkennungsmodelle unter Verwendung von CDM, BLEU und ExpRate-Metriken. Die Ergebnisse zeigen, dass CDM enger mit menschlichen Bewertungsstandards übereinstimmt und durch die Beseitigung von Diskrepanzen, die durch unterschiedliche Formeldarstellungen verursacht werden, einen gerechteren Vergleich verschiedener Modelle ermöglicht.
Aktuelle Studien zeigen, dass die mathematischen Problemlösungsfähigkeiten großer Sprachmodelle (LLMs) durch die Integration externer Werkzeuge wie Code-Interpreter und den Einsatz von mehrstufigem Chain-of-Thought (CoT)-Reasoning verbessert werden können. Während sich aktuelle Methoden auf die Erzeugung synthetischer Daten und Supervised Fine-Tuning (SFT) konzentrieren, untersucht diese Arbeit den komplementären Ansatz des direkten Präferenzlernens, um die Modellleistung weiter zu steigern. Allerdings sind bestehende Algorithmen für direktes Präferenzlernen ursprünglich für die einstufige Chat-Aufgabe konzipiert und berücksichtigen nicht vollständig die Komplexitäten des mehrstufigen Reasonings und der Integration externer Werkzeuge, die für Werkzeug-integrierte mathematische Reasoning-Aufgaben erforderlich sind. Um diese Lücke zu schließen, führen wir einen mehrstufigen Rahmen für direktes Präferenzlernen ein, der speziell auf diesen Kontext zugeschnitten ist und Feedback von Code-Internpretern nutzt sowie Trajektorien-basierte Präferenzen optimiert. Dieser Rahmen umfasst Multi-Turn-DPO und Multi-Turn-KTO als konkrete Implementierungen. Die Wirksamkeit unseres Frameworks wird durch das Training verschiedener Sprachmodelle mit einem erweiterten Prompt-Satz aus den GSM8K- und MATH-Datensätzen validiert. Unsere Ergebnisse zeigen erhebliche Verbesserungen: Die Leistung eines supervidiert feinabgestimmten Gemma-1.1-it-7B-Modells stieg auf GSM8K von 77,5 % auf 83,9 % und auf MATH von 46,1 % auf 51,2 %. Ebenso verbesserte sich ein Gemma-2-it-9B-Modell auf GSM8K von 84,1 % auf 86,3 % und auf MATH von 51,0 % auf 54,5 %.
Die rasante Entwicklung und dynamische Natur großer Sprachmodelle (LLM) erschwert es, deren Fähigkeiten mit konventionellen quantitativen Benchmarks genau zu bewerten. Wir schlagen Report Cards vor – menschenlesbare, natürlichsprachliche Zusammenfassungen des Modellverhaltens für bestimmte Fähigkeiten oder Themen. Wir entwickeln einen Bewertungsrahmen für Report Cards basierend auf drei Kriterien: Spezifität (Fähigkeit, zwischen Modellen zu unterscheiden), Treue (genaue Darstellung der Modellfähigkeiten) und Interpretierbarkeit (Klarheit und Relevanz für Menschen). Zudem präsentieren wir einen iterativen Algorithmus zur Erstellung von Report Cards ohne menschliche Aufsicht und untersuchen seine Wirksamkeit durch Ablation verschiedener Gestaltungsentscheidungen. Experimente mit gängigen LLMs zeigen, dass Report Cards Einblicke liefern, die über traditionelle Benchmarks hinausgehen, und dazu beitragen können, den Bedarf an einer interpretierbareren und ganzheitlicheren Bewertung von LLMs zu adressieren.
Open-Vocabulary-Segmentierung stellt erhebliche Herausforderungen dar, da sie die Segmentierung und Erkennung von Objekten über eine offene Menge von Kategorien in unkontrollierten Umgebungen erfordert. Aufbauend auf dem Erfolg leistungsstarker Vision-Language (ViL)-Foundation-Modelle wie CLIP zielten jüngste Bestrebungen darauf ab, deren Zero-Shot-Fähigkeiten zur Erkennung ungesehener Kategorien zu nutzen. Trotz bemerkenswerter Leistungsverbesserungen stoßen diese Modelle nach wie vor auf das kritische Problem, präzise Maskenvorschläge für ungesehene Kategorien und Szenarien zu generieren, was letztendlich zu einer unterlegenen Segmentierungsleistung führt. Um diese Herausforderung zu bewältigen, stellen wir einen neuartigen Ansatz namens FrozenSeg vor, der räumliches Wissen aus einem Lokalisierungs-Foundation-Modell (z.B. SAM) und semantisches Wissen aus einem ViL-Modell (z.B. CLIP) in einem synergetischen Framework integriert. Unter Verwendung des visuellen Encoders des ViL-Modells als Feature-Backbone injizieren wir raumbewusste Features in die lernbaren Queries und CLIP-Features innerhalb des Transformer-Decoders. Zusätzlich entwickeln wir eine Maskenvorschlags-Ensemble-Strategie zur weiteren Verbesserung der Recall-Rate und Maskenqualität. Um vortrainiertes Wissen vollständig zu nutzen und gleichzeitig den Trainingsaufwand zu minimieren, frieren wir beide Foundation-Modelle ein und konzentrieren die Optimierungsbemühungen ausschließlich auf einen leichten Transformer-Decoder zur Generierung von Maskenvorschlägen – dem Leistungsengpass. Umfangreiche Experimente belegen, dass FrozenSeg state-of-the-art Ergebnisse auf verschiedenen Segmentierungs-Benchmarks erreicht, wobei es ausschließlich auf COCO Panoptic-Daten trainiert und auf Zero-Shot-Weise getestet wurde. Der Code ist verfügbar unter https://github.com/chenxi52/FrozenSeg.
Große Sprachmodelle (LLMs) haben die Landschaft der Programmsynthese neu gestaltet. Allerdings halluzinieren zeitgenössische LLM-basierte Code-Vervollständigungssysteme oft fehlerhaften Code, da ihnen der geeignete Kontext fehlt, insbesondere bei der Arbeit mit Definitionen, die nicht in den Trainingsdaten enthalten oder in der Nähe der Cursorposition sind. Dieses Papier zeigt, dass eine enge Integration mit der Typ- und Bindungsstruktur einer Sprache, wie sie ihr Language Server bereitstellt, dieses Kontextualisierungsproblem auf token-effiziente Weise lösen kann. Kurz gesagt, wir sind der Ansicht, dass auch KIs IDEs benötigen! Insbesondere integrieren wir die LLM-Codegenerierung in die Hazel Live-Programm-Skizzierungsumgebung. Der Hazel Language Server identifiziert den Typ und den Typisierungskontext der zu füllenden Lücke, selbst bei Vorhandensein von Fehlern, und stellt so sicher, dass stets eine aussagekräftige Programmskizze verfügbar ist. Dies ermöglicht das Prompting mit kontextuellen Informationen aus der gesamten Codebasis, die nicht lexikalisch lokal zum Cursor stehen und nicht notwendigerweise in derselben Datei liegen, aber wahrscheinlich semantisch lokal zum Ziel des Entwicklers sind. Durch den LLM synthetisierte Vervollständigungen werden dann iterativ durch weiteren Dialog mit dem Language Server verfeinert. Um diese Techniken zu evaluieren, führen wir MVUBench ein, einen Datensatz von Model-View-Update (MVU) Webanwendungen. Diese Anwendungen dienen als Herausforderungsprobleme aufgrund ihrer Abhängigkeit von anwendungsspezifischen Datenstrukturen. Wir stellen fest, dass die Kontextualisierung mit Typdefinitionen besonders wirkungsvoll ist. Nach der Vorstellung unserer Ideen im Kontext von Hazel replizieren wir unsere Techniken und portieren MVUBench nach TypeScript, um die Anwendbarkeit dieser Methoden auf ressourcenstärkere Sprachen zu validieren. Abschließend skizzieren wir ChatLSP, eine konservative Erweiterung des Language Server Protocol (LSP), die Language Server implementieren können, um Fähigkeiten bereitzustellen, die KI-Code-Vervollständigungssysteme verschiedener Designs nutzen können, um statischen Kontext bei der Generierung von Prompts für ein LLM einzubeziehen.