Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Während Text-zu-Bild-Modelle wie DALLE-3 und Stable Diffusion sich schnell verbreiten, stoßen sie oft auf Herausforderungen wie Halluzinationen, Voreingenommenheit und die Erzeugung unsicherer, minderwertiger Ausgaben. Um diese Probleme effektiv anzugehen, ist es entscheidend, diese Modelle mit gewünschten Verhaltensweisen abzustimmen, basierend auf Rückmeldungen eines multimodalen Richters. Trotz ihrer Bedeutung werden aktuelle multimodale Richter häufig unzureichend auf ihre Fähigkeiten und Grenzen evaluiert, was potenziell zu Missabstimmungen und unsicheren Feinabstimmungsergebnissen führen kann. Um dieses Problem zu lösen, stellen wir MJ-Bench vor, einen neuartigen Benchmark, der einen umfassenden Präferenzdatensatz integriert, um multimodale Richter in der Bereitstellung von Rückmeldungen für Bildgenerierungsmodelle aus vier Schlüsselperspektiven zu bewerten: Abstimmung, Sicherheit, Bildqualität und Voreingenommenheit. Speziell bewerten wir eine Vielzahl von multimodalen Richtern, darunter kleinere CLIP-basierte Bewertungsmodelle, Open-Source VLMs (z.B. LLaVA-Familie) und Closed-Source VLMs (z.B. GPT-4o, Claude 3) in jeder zerlegten Unterkategorie unseres Präferenzdatensatzes. Experimente zeigen, dass Closed-Source VLMs im Allgemeinen bessere Rückmeldungen liefern, wobei GPT-4o im Durchschnitt andere Richter übertrifft. Im Vergleich zu Open-Source VLMs können kleinere Bewertungsmodelle bessere Rückmeldungen bezüglich Text-Bild-Abstimmung und Bildqualität liefern, während VLMs aufgrund ihrer stärkeren Argumentationsfähigkeiten genauere Rückmeldungen bezüglich Sicherheit und Generierungsvoreingenommenheit bieten. Weitere Studien zur Rückmeldungs-Skala zeigen, dass VLM-Richter im Allgemeinen genauere und stabilere Rückmeldungen in natürlicher Sprache (Likert-Skala) als numerische Skalen liefern können. Bemerkenswert ist, dass menschliche Bewertungen an end-to-end feinabgestimmten Modellen unter Verwendung separater Rückmeldungen dieser multimodalen Richter zu ähnlichen Schlussfolgerungen kommen, was die Wirksamkeit von MJ-Bench weiter bestätigt. Alle Daten, Codes und Modelle sind unter https://huggingface.co/MJ-Bench verfügbar.
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Übersetzungsfähigkeiten in hochwertigen Sprachaufgaben, doch ihre Leistungsfähigkeit in Sprachen mit geringen Ressourcen wird durch unzureichende mehrsprachige Daten während des Vortrainings beeinträchtigt. Um dies zu lösen, widmen wir 35.000 A100-SXM4-80GB GPU-Stunden der Durchführung umfangreichen mehrsprachigen kontinuierlichen Vortrainings an den LLaMA-Serienmodellen, was Übersetzungsunterstützung in über 100 Sprachen ermöglicht. Durch eine umfassende Analyse von Trainingsstrategien wie Vokabularerweiterung und Datenvermehrung entwickeln wir LLaMAX. Bemerkenswerterweise erreicht LLaMAX signifikant höhere Übersetzungsleistungen im Vergleich zu bestehenden Open-Source LLMs (um mehr als 10 spBLEU-Punkte) und steht auf Augenhöhe mit spezialisierten Übersetzungsmodellen (M2M-100-12B) im Flores-101 Benchmark. Umfangreiche Experimente deuten darauf hin, dass LLaMAX als robustes mehrsprachiges Grundlagenmodell dienen kann. Der Code \url{https://github.com/CONE-MT/LLaMAX/.} und die Modelle \url{https://huggingface.co/LLaMAX/.} sind öffentlich verfügbar.
Dieses Papier behandelt die Herausforderung, eine neuronale Architektur für sehr lange Sequenzen zu erstellen, die für die Verarbeitung neuer Informationen bei jedem Zeitschritt konstante Zeit erfordert. Unser Ansatz, der Assoziative Rekurrente Gedächtnis-Transformer (ARMT), basiert auf Transformer-Selbstaufmerksamkeit für den lokalen Kontext und Segmentebene-Rekurrenz für die Speicherung von aufgabenbezogenen Informationen, die über einen langen Kontext verteilt sind. Wir zeigen, dass ARMT bestehende Alternativen in assoziativen Abrufaufgaben übertrifft und im kürzlich veröffentlichten BABILong Multi-Task Long-Context Benchmark einen neuen Leistungsrekord setzt, indem er Einzelfakt-Fragen über 50 Millionen Tokens mit einer Genauigkeit von 79,9% beantwortet. Der Quellcode für Training und Evaluation ist auf GitHub verfügbar.
Ein Bildbearbeitungsmodell sollte in der Lage sein, verschiedene Bearbeitungen durchzuführen, die von Objektaustausch, Änderung von Attributen oder Stil bis hin zu Aktionen oder Bewegungen reichen, die unterschiedliche Formen des Denkens erfordern. Aktuelle allgemeine, anweisungsgesteuerte Bearbeitungsmodelle weisen erhebliche Mängel bei aktions- und denkzentrierten Bearbeitungen auf. Objekt-, Attribut- oder stilistische Änderungen können aus visuell statischen Datensätzen gelernt werden. Hochwertige Daten für aktions- und denkzentrierte Bearbeitungen sind hingegen knapp und müssen aus völlig anderen Quellen stammen, die beispielsweise physikalische Dynamik, Zeitlichkeit und räumliches Denken abdecken. Zu diesem Zweck kuratieren wir sorgfältig den AURORA-Datensatz (Action-Reasoning-Object-Attribute), eine Sammlung von hochwertigen Trainingsdaten, die von Videos und Simulationssystemen von Menschen annotiert und kuratiert wurden. Wir konzentrieren uns auf einen entscheidenden Aspekt hochwertiger Trainingsdaten: Triplets (Quellbild, Anweisung, Zielbild) enthalten eine einzige sinnvolle visuelle Änderung, die durch die Anweisung beschrieben wird, d. h. wirklich minimale Änderungen zwischen Quell- und Zielbildern. Um den Wert unseres Datensatzes zu demonstrieren, evaluieren wir ein AURORA-feinabgestimmtes Modell an einem neuen von Experten kuratierten Benchmark (AURORA-Bench), der 8 verschiedene Bearbeitungsaufgaben abdeckt. Unser Modell übertrifft signifikant frühere Bearbeitungsmodelle, wie von menschlichen Bewertern beurteilt. Bei automatischen Bewertungen finden wir wichtige Mängel in früheren Metriken und warnen vor deren Verwendung für semantisch anspruchsvolle Bearbeitungsaufgaben. Stattdessen schlagen wir eine neue automatische Metrik vor, die sich auf diskriminierendes Verständnis konzentriert. Wir hoffen, dass unsere Bemühungen: (1) die Kuratierung eines hochwertigen Trainingsdatensatzes und eines Evaluierungsbenchmarks, (2) die Entwicklung kritischer Bewertungen und (3) die Veröffentlichung eines erstklassigen Modells, weitere Fortschritte bei der allgemeinen Bildbearbeitung vorantreiben werden.
Bisherige Open-Source-große multimodale Modelle (LMMs) standen vor mehreren Einschränkungen: (1) sie fehlen oft an nativer Integration und erfordern Adapter, um visuelle Darstellungen mit vorab trainierten großen Sprachmodellen (LLMs) abzustimmen; (2) viele sind auf die Generierung in einem einzelnen Modal beschränkt; (3) während einige die multimodale Generierung unterstützen, verlassen sie sich auf separate Diffusionsmodelle für die visuelle Modellierung und Generierung. Um diese Einschränkungen zu mildern, präsentieren wir Anole, ein offenes, autoregressives, natives großes multimodales Modell für die ineinandergreifende Bild-Text-Generierung. Wir bauen Anole auf Meta AI's Chameleon auf und übernehmen eine innovative Feinabstimmungsstrategie, die sowohl dateneffizient als auch parameter-effizient ist. Anole zeigt hochwertige, kohärente multimodale Generierungsfähigkeiten. Wir haben unser Modell, das Schulungsframework und die Anweisungstuning-Daten als Open Source veröffentlicht.
Große Sprachmodelle werden prominent in realen Anwendungen eingesetzt und sind oft damit beauftragt, über große Mengen von Dokumenten zu argumentieren. Eine aufregende Entwicklung in diesem Bereich sind Modelle, die erweiterte Kontextfähigkeiten aufweisen und einige über mehr als 2 Millionen Tokens verfügen. Die Fähigkeiten solcher Modelle mit langem Kontext bleiben in Produktionssystemen unsicher, was die Notwendigkeit unterstreicht, ihre Leistungsfähigkeit an realen Anwendungsfällen zu überprüfen. Wir begegnen dieser Herausforderung, indem wir SWiM vorschlagen, ein Bewertungsrahmen, der die Einschränkungen herkömmlicher Tests anspricht. Bei der Prüfung des Rahmens an acht Modellen mit langem Kontext stellen wir fest, dass selbst starke Modelle wie GPT-4 und Claude 3 Opus an Leistung einbüßen, wenn Informationen in der Mitte des Kontextfensters vorhanden sind (Lost-in-the-Middle-Effekt). Darüber hinaus schlagen wir neben unserem Benchmark das medoide Abstimmen vor, ein einfacher, aber effektiver trainingsfreier Ansatz, der dazu beiträgt, diesen Effekt zu mildern, indem Antworten einige Male generiert werden, wobei jedes Mal Dokumente im Kontext zufällig umgestellt und die medoide Antwort ausgewählt wird. Wir bewerten das medoide Abstimmen bei Einzeldokument-Frage-Antwort-Aufgaben und erzielen eine bis zu 24%ige Steigerung der Genauigkeit.
Dieses Papier präsentiert UltraEdit, ein groß angelegtes (ungefähr 4 Millionen Bearbeitungsbeispiele), automatisch generiertes Datenset für instruktionsbasierte Bildbearbeitung. Unsere Hauptidee besteht darin, die Nachteile in bestehenden Bildbearbeitungsdatensets wie InstructPix2Pix und MagicBrush anzugehen und einen systematischen Ansatz zur Erzeugung von umfangreichen und hochwertigen Bildbearbeitungsbeispielen bereitzustellen. UltraEdit bietet mehrere deutliche Vorteile: 1) Es bietet eine breitere Palette von Bearbeitungsanweisungen, indem es die Kreativität großer Sprachmodelle (LLMs) neben in-Kontext-Bearbeitungsbeispielen von menschlichen Bewertern nutzt; 2) Seine Datenquellen basieren auf realen Bildern, einschließlich Fotografien und Kunstwerken, die im Vergleich zu Datensets, die ausschließlich von Text-zu-Bild-Modellen generiert wurden, eine größere Vielfalt und reduzierte Voreingenommenheit bieten; 3) Es unterstützt auch eine regionenbasierte Bearbeitung, die durch hochwertige, automatisch erstellte regionale Annotationen verbessert wird. Unsere Experimente zeigen, dass kanonische Diffusions-basierte Bearbeitungs-Benchmarks, die auf dem UltraEdit-Set trainiert wurden, neue Rekorde bei den MagicBrush- und Emu-Edit-Benchmarks setzen. Unsere Analyse bestätigt weiterhin die entscheidende Rolle von realen Bildankern und regionenbasierten Bearbeitungsdaten. Das Datenset, der Code und die Modelle sind unter https://ultra-editing.github.io zu finden.
In jüngster Zeit haben Fortschritte in der 3D KI-gesteuerten Generierung gezeigt, dass sie vielversprechend direkt 3D-Objekte aus Text und Bildern erstellen kann, was erhebliche Kosteneinsparungen bei Animationen und Produktgestaltung bietet. Die detaillierte Bearbeitung und Anpassung von 3D-Ressourcen bleibt jedoch eine langjährige Herausforderung. Insbesondere fehlt es den 3D-Generierungsmethoden an der Fähigkeit, fein detaillierte Anweisungen so präzise zu befolgen wie ihre 2D-Bildgenerierungspendants. Stellen Sie sich vor, Sie könnten ein Spielzeug über 3D KI-gesteuerte Generierung erhalten, jedoch mit unerwünschtem Zubehör und Kleidung. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Pipeline namens Tailor3D vor, die schnell maßgeschneiderte 3D-Ressourcen aus bearbeitbaren Dual-Seiten-Bildern erstellt. Unser Ziel ist es, die Fähigkeit eines Schneiders zu emulieren, Objekte lokal zu ändern oder einen Gesamtstiltransfer durchzuführen. Im Gegensatz zur Erstellung von 3D-Ressourcen aus mehreren Ansichten beseitigen die Verwendung von Dual-Seiten-Bildern Konflikte in überlappenden Bereichen, die bei der Bearbeitung einzelner Ansichten auftreten. Konkret beginnt der Prozess mit der Bearbeitung der Vorderansicht, generiert dann die Rückansicht des Objekts durch Multi-View-Diffusion. Anschließend wird mit der Bearbeitung der Rückansichten fortgefahren. Schließlich wird ein Dual-seitiges LRM vorgeschlagen, um die Vorder- und Rückansichten nahtlos zusammenzufügen, ähnlich wie ein Schneider Vorder- und Rückseite eines Kleidungsstücks zusammennäht. Das Dual-seitige LRM korrigiert unvollkommene Konsistenzen zwischen den Vorder- und Rückansichten, verbessert die Bearbeitungsmöglichkeiten und reduziert den Speicherbedarf, während es sie nahtlos in eine vereinheitlichte 3D-Repräsentation mit dem LoRA Triplane Transformer integriert. Experimentelle Ergebnisse zeigen die Wirksamkeit von Tailor3D bei verschiedenen 3D-Generierungs- und Bearbeitungsaufgaben, einschließlich 3D-generativer Füllungen und Stiltransfers. Es bietet eine benutzerfreundliche, effiziente Lösung für die Bearbeitung von 3D-Ressourcen, wobei jeder Bearbeitungsschritt nur Sekunden dauert.
Die jüngsten Fortschritte bei Open-Source-Code-Modellen großer Sprachen (LLMs) haben bemerkenswerte Codierfähigkeiten gezeigt, indem sie durch Feinabstimmung auf den von leistungsstarken Closed-Source-LLMs wie GPT-3.5 und GPT-4 generierten Daten für die Anweisungsabstimmung trainiert wurden. Diese Arbeit untersucht, wie man ein anweisungsabgestimmtes Code-LLM weiter verbessern kann, indem Daten aus sich selbst generiert werden, anstatt Closed-Source-LLMs abzufragen. Unsere Schlüsselbeobachtung ist die Diskrepanz zwischen der Übersetzung formaler und informeller Sprachen: Die Übersetzung formaler Sprache (d.h. Code) in informelle Sprache (d.h. natürliche Sprache) ist einfacher als umgekehrt. Basierend auf dieser Beobachtung schlagen wir INVERSE-INSTRUCT vor, das Anweisungen aus Code-Schnipseln zusammenfasst, anstatt umgekehrt. Konkret fordern wir das Code-LLM auf, zusätzliche hochwertige Anweisungen für das ursprüngliche Korpus durch Code-Zusammenfassung und Selbstbewertung zu generieren, basierend auf einem Anweisungsabstimmungskorpus für Code und dem resultierenden anweisungsabgestimmten Code-LLM. Anschließend feinabstimmen wir das Basis-LLM auf der Kombination aus dem ursprünglichen Korpus und dem selbstgenerierten, was ein stärkeres anweisungsabgestimmtes LLM ergibt. Wir präsentieren eine Reihe von Code-LLMs namens InverseCoder, die die Leistung der ursprünglichen Code-LLMs auf einer Vielzahl von Benchmarks übertreffen, einschließlich der Python-Text-zu-Code-Generierung, mehrsprachiger Codierung und der Code-Generierung für Data Science.
Groß angelegte Text-zu-Video (T2V) Diffusionsmodelle haben kürzlich eine beispiellose Fähigkeit gezeigt, natürlichsprachliche Beschreibungen in atemberaubende und fotorealistische Videos zu verwandeln. Trotz der vielversprechenden Ergebnisse bleibt eine bedeutende Herausforderung bestehen: Diese Modelle haben Schwierigkeiten, komplexe kompositorische Interaktionen zwischen mehreren Konzepten und Handlungen vollständig zu erfassen. Dieses Problem tritt auf, wenn einige Wörter den endgültigen Videoinhalt dominierend beeinflussen und andere Konzepte überschatten. Um dieses Problem anzugehen, stellen wir Vico vor, ein generisches Rahmenwerk für die kompositorische Videogenerierung, das explizit sicherstellt, dass alle Konzepte angemessen dargestellt werden. Im Kern analysiert Vico, wie Eingabetoken das generierte Video beeinflussen, und passt das Modell an, um zu verhindern, dass ein einzelnes Konzept dominiert. Speziell extrahiert Vico Aufmerksamkeitsgewichte aus allen Schichten, um einen räumlich-zeitlichen Aufmerksamkeitsgraphen aufzubauen, und schätzt dann den Einfluss als maximalen Fluss vom Quelltexttoken zum Videozieltoken. Obwohl die direkte Berechnung des Aufmerksamkeitsflusses in Diffusionsmodellen typischerweise nicht durchführbar ist, entwickeln wir eine effiziente Approximation basierend auf Teilgraphflüssen und verwenden eine schnelle und vektorisierte Implementierung, die wiederum die Flussberechnung handhabbar und differenzierbar macht. Durch Aktualisierung des rauschenden Latenten zur Ausbalancierung dieser Flüsse erfasst Vico komplexe Interaktionen und produziert folglich Videos, die eng an den textlichen Beschreibungen haften. Wir wenden unsere Methode auf mehrere diffusionsbasierte Videomodelle für kompositorisches T2V und Videobearbeitung an. Empirische Ergebnisse zeigen, dass unser Rahmenwerk die kompositorische Vielfalt und Genauigkeit der generierten Videos signifikant verbessert. Besuchen Sie unsere Website unter https://adamdad.github.io/vico/.
Große Vision-Sprachmodelle (LVLMs) leiden oft unter Objekthalluzinationen, bei denen Objekte erzeugt werden, die nicht in den gegebenen Bildern vorhanden sind. Während aktuelle Benchmarks für Objekthalluzinationen hauptsächlich auf die Präsenz einer einzelnen Objektklasse anstatt einzelner Entitäten abzielen, untersucht diese Arbeit systematisch die Mehrfach-Objekthalluzination und untersucht, wie Modelle Fehler machen (z. B. nicht existierende Objekte erfinden oder abgelenkt werden), wenn sie gleichzeitig auf mehrere Objekte fokussiert sind. Wir stellen die Recognition-based Object Probing Evaluation (ROPE) vor, ein automatisiertes Bewertungsprotokoll, das die Verteilung von Objektklassen innerhalb eines einzelnen Bildes während des Tests berücksichtigt und visuelle Verweisvorgaben verwendet, um Mehrdeutigkeiten zu beseitigen. Durch umfassende empirische Studien und die Analyse potenzieller Faktoren, die zu Mehrfach-Objekthalluzinationen führen, haben wir festgestellt, dass (1) LVLMs mehr Halluzinationen erleiden, wenn sie sich auf mehrere Objekte anstatt auf ein einzelnes Objekt konzentrieren. (2) Die getestete Verteilung der Objektklassen beeinflusst das Halluzinationsverhalten und deutet darauf hin, dass LVLMs möglicherweise Abkürzungen und irreführende Korrelationen verwenden. (3) Halluzinatorische Verhaltensweisen werden von datenspezifischen Faktoren, Salienz und Häufigkeit sowie Modell-intrinsischen Verhaltensweisen beeinflusst. Wir hoffen, LVLMs in die Lage zu versetzen, mehrere Objekte zu erkennen und über sie zu argumentieren, die oft in realistischen visuellen Szenen vorkommen, Erkenntnisse zu liefern und unseren Fortschritt bei der Minderung der Probleme zu quantifizieren.
In den letzten Jahren hat der Aufstieg von Large Language Models (LLMs) eine wachsende Nachfrage nach Plug-and-Play KI-Systemen ausgelöst. Unter den verschiedenen KI-Techniken sticht die Prompt-Entwicklung als besonders bedeutend hervor. Benutzer stehen jedoch oft vor Herausforderungen beim Verfassen von Prompts aufgrund der steilen Lernkurve und des erheblichen Zeitaufwands, und bestehende automatische Prompt-Entwicklungsmodelle (APE) können schwer zu verwenden sein. Um dieses Problem zu lösen, schlagen wir PAS vor, ein LLM-basiertes Plug-and-Play APE-System. PAS nutzt LLMs, die auf hochwertigen, automatisch generierten prompt-komplementären Datensätzen trainiert sind, was zu außergewöhnlicher Leistung führt. In umfassenden Benchmarks erzielt PAS im Vergleich zu früheren APE-Modellen Ergebnisse auf dem Stand der Technik (SoTA) mit einer durchschnittlichen Verbesserung von 6,09 Punkten. Darüber hinaus ist PAS äußerst effizient und erreicht SoTA-Leistung mit nur 9000 Datenpunkten. Darüber hinaus kann PAS eigenständig Prompt-Augmentierungsdaten generieren, ohne zusätzliche menschliche Arbeitskräfte zu benötigen. Seine Flexibilität ermöglicht es zudem, mit allen bestehenden LLMs kompatibel zu sein und auf eine Vielzahl von Aufgaben anwendbar zu sein. PAS zeichnet sich in menschlichen Bewertungen aus und unterstreicht damit seine Eignung als Plug-In für Benutzer. Diese Kombination aus hoher Leistung, Effizienz und Flexibilität macht PAS zu einem wertvollen System zur Verbesserung der Benutzerfreundlichkeit und Effektivität von LLMs durch verbesserte Prompt-Entwicklung.
Eine der zuverlässigsten Methoden zur Erstellung einsatzfähiger Modelle für spezialisierte Aufgaben besteht darin, eine ausreichende Menge an hochwertigen, aufgabenbezogenen Daten zu erhalten. Allerdings existieren für spezialisierte Aufgaben oft keine solchen Datensätze. Bestehende Methoden adressieren dieses Problem, indem sie solche Daten aus großen Sprachmodellen (LLMs) erstellen und dieses Wissen dann in kleinere Modelle destillieren. Diese Methoden sind jedoch durch die Qualität der Ausgabe der LLMs begrenzt und neigen dazu, repetitive oder inkorrekte Daten zu generieren. In dieser Arbeit stellen wir Retrieval Based Distillation (ReBase) vor, eine Methode, die zunächst Daten aus reichhaltigen Online-Quellen abruft und diese dann in domänenspezifische Daten umwandelt. Diese Methode verbessert die Datenvielfalt erheblich. Darüber hinaus generiert ReBase Chain-of-Thought-Argumentation und destilliert die Argumentationsfähigkeit der LLMs. Wir testen unsere Methode an 4 Benchmarks und die Ergebnisse zeigen, dass unsere Methode die Leistung signifikant um bis zu 7,8% bei SQuAD, 1,37% bei MNLI und 1,94% bei BigBench-Hard verbessert.
Neueste Studien legen nahe, dass der induktive Bias von Deep-Learning-Modellen zugunsten einfacherer Merkmale eine der Ursachen für Shortcut-Learning sein könnte. Dennoch wurde bisher wenig Wert darauf gelegt, die Komplexität der zahlreichen Merkmale zu verstehen, die Modelle erlernen. In dieser Arbeit führen wir eine neue Metrik zur Quantifizierung der Merkmalskomplexität ein, basierend auf V-Informationen, die erfasst, ob ein Merkmal komplexe Rechentransformationen erfordert, um extrahiert zu werden. Unter Verwendung dieser V-Informationsmetrik analysieren wir die Komplexitäten von 10.000 Merkmalen, die als Richtungen in der vorletzten Schicht dargestellt sind und aus einem standardmäßig mit ImageNet trainierten Vision-Modell extrahiert wurden. Unsere Studie behandelt vier Schlüsselfragen: Erstens untersuchen wir, wie Merkmale in Abhängigkeit von ihrer Komplexität aussehen und finden ein Spektrum von einfachen bis komplexen Merkmalen innerhalb des Modells. Zweitens untersuchen wir, wann Merkmale während des Trainings erlernt werden. Wir stellen fest, dass einfachere Merkmale zu Beginn des Trainings dominieren und komplexere Merkmale allmählich auftauchen. Drittens untersuchen wir, wohin im Netzwerk einfache und komplexe Merkmale fließen, und stellen fest, dass einfachere Merkmale die visuelle Hierarchie über Restverbindungen umgehen. Viertens erforschen wir den Zusammenhang zwischen Merkmalskomplexität und ihrer Bedeutung für die Entscheidungsfindung des Netzwerks. Wir stellen fest, dass komplexe Merkmale tendenziell weniger wichtig sind. Überraschenderweise werden wichtige Merkmale während des Trainings in früheren Schichten zugänglich, ähnlich einem Sedimentationsprozess, der es dem Modell ermöglicht, auf diesen grundlegenden Elementen aufzubauen.
Dieses Papier fördert die kreative Steuerung in der generativen visuellen KI, indem es Benutzern ermöglicht, "auszuwählen". Abweichend von traditionellen text- oder skizzenbasierten Methoden erlauben wir Benutzern erstmals, visuelle Konzepte nach Teilen für ihre kreativen Bestrebungen auszuwählen. Das Ergebnis ist eine feinkörnige Generierung, die ausgewählte visuelle Konzepte präzise erfasst und so ein ganzheitlich treues und plausibles Ergebnis gewährleistet. Um dies zu erreichen, zerlegen wir zunächst Objekte in Teile durch unüberwachtes Merkmalsclustering. Anschließend codieren wir die Teile in Text-Token und führen einen auf Entropie basierenden normalisierten Aufmerksamkeitsverlust ein, der auf sie wirkt. Dieses Verlustdesign ermöglicht es unserem Modell, generisches Topologie-Wissen über die Teilezusammensetzung von Objekten zu erlernen und sich weiter auf neuartige Teilezusammensetzungen zu verallgemeinern, um sicherzustellen, dass die Generierung ganzheitlich treu aussieht. Schließlich verwenden wir einen Engpass-Encoder, um die Teil-Token zu projizieren. Dies verbessert nicht nur die Treue, sondern beschleunigt auch das Lernen, indem gemeinsames Wissen genutzt und der Informationsaustausch zwischen Instanzen erleichtert wird. Visuelle Ergebnisse im Papier und im ergänzenden Material zeigen die überzeugende Kraft von PartCraft bei der Gestaltung hochgradig individueller, innovativer Kreationen, wie sie beispielhaft durch die "charmanten" und kreativen Vögel dargestellt werden. Der Code ist unter https://github.com/kamwoh/partcraft verfügbar.
Entity Linking (EL)-Modelle sind gut darin trainiert, Erwähnungen entsprechend eines gegebenen Kontexts ihren zugehörigen Entitäten zuzuordnen. Allerdings haben EL-Modelle Schwierigkeiten, selten vorkommende Entitäten aufgrund ihrer begrenzten Trainingsdaten eindeutig zuzuordnen. Gleichzeitig sind große Sprachmodelle (LLMs) robuster bei der Interpretation ungewöhnlicher Erwähnungen. Aufgrund eines Mangels an spezialisierter Schulung leiden LLMs jedoch darunter, korrekte Entitäts-IDs zu generieren. Darüber hinaus ist das Training eines LLMs zur Durchführung von EL kostenintensiv. Basierend auf diesen Erkenntnissen stellen wir LLMAEL (LLM-augmentiertes Entity Linking) vor, einen Plug-and-Play-Ansatz zur Verbesserung des Entity Linking durch LLM-Datenaugmentierung. Wir nutzen LLMs als kenntnisreiche Kontextverstärker, die ergebnisorientierte Beschreibungen generieren, die als zusätzliche Eingabe dienen, während traditionelle EL-Modelle für die aufgabenspezifische Verarbeitung beibehalten werden. Experimente mit 6 Standarddatensätzen zeigen, dass das Standard-LLMAEL in den meisten Fällen die Baseline-EL-Modelle übertrifft, während das feinabgestimmte LLMAEL die neuen State-of-the-Art-Ergebnisse in allen 6 Benchmarks setzt.
Große Sprachmodelle (LLMs) zeigen Halluzinationen in langen Frage-Antwort-Aufgaben in verschiedenen Bereichen und Anwendungen. Aktuelle Halluzinationserkennungs- und -minderungsdatensätze sind in Bezug auf Domänen und Größen begrenzt, was aufgrund hoher Arbeitskosten und unzureichender Zuverlässigkeit der bestehenden Halluzinationsannotatoren zu Skalierungsproblemen führt. Um die skalierbare Überwachung von LLM-Halluzinationen zu erleichtern, stellt dieser Artikel ein iteratives Selbstlern-Framework vor, das gleichzeitig und progressiv den Halluzinationsannotationsdatensatz erweitert und die Genauigkeit des Halluzinationsannotators verbessert. Basierend auf dem Erwartungs-Maximierungs-Algorithmus (EM) wendet das Framework in jeder Iteration zunächst eine Halluzinationsannotationspipeline auf einen skalierten Datensatz an und trainiert dann einen präziseren Halluzinationsannotator auf dem Datensatz. Dieser neue Halluzinationsannotator wird in der Halluzinationsannotationspipeline für die nächste Iteration übernommen. Umfangreiche experimentelle Ergebnisse zeigen, dass der schließlich erhaltene Halluzinationsannotator mit nur 7B Parametern die Leistung von GPT-4 übertrifft und neue Spitzenleistungsergebnisse bei der Halluzinationserkennung in HaluEval und HalluQA durch Null-Schuss-Inferenz erzielt. Ein solcher Annotator kann nicht nur die Halluzinationsniveaus verschiedener LLMs anhand des groß angelegten Datensatzes bewerten, sondern auch dazu beitragen, die Halluzinationen von LLM-Generationen zu mindern, wobei der Metrik für Natürliche Sprachinferenz (NLI) von 25% auf 37% in HaluEval steigt.