Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir schlagen LENS vor, einen modularen Ansatz zur Bewältigung von Computer-Vision-Problemen durch die Nutzung der Leistungsfähigkeit großer Sprachmodelle (LLMs). Unser System verwendet ein Sprachmodell, um über die Ausgaben einer Reihe unabhängiger und hochdeskriptiver Vision-Module zu reflektieren, die umfassende Informationen über ein Bild liefern. Wir evaluieren den Ansatz in reinen Computer-Vision-Szenarien wie Zero- und Few-Shot-Objekterkennung sowie bei Vision- und Sprachproblemen. LENS kann auf jedes handelsübliche LLM angewendet werden, und wir stellen fest, dass LLMs mit LENS sehr wettbewerbsfähig mit viel größeren und komplexeren Systemen abschneiden, ohne jegliches multimodale Training. Wir stellen unseren Code unter https://github.com/ContextualAI/lens als Open-Source zur Verfügung und bieten eine interaktive Demo an.
Generative KI und große Sprachmodelle bergen großes Potenzial, die Informatikausbildung zu verbessern, indem sie die Grundlage für die nächste Generation von Bildungstechnologien im Bereich der Einführung in die Programmierung bilden. Aktuelle Arbeiten haben diese Modelle für verschiedene Szenarien untersucht, die für die Programmierausbildung relevant sind; diese Studien sind jedoch aus mehreren Gründen begrenzt, da sie typischerweise bereits veraltete Modelle oder nur spezifische Szenarien betrachten. Folglich fehlt es an einer systematischen Studie, die state-of-the-art Modelle für eine umfassende Reihe von Programmierausbildungsszenarien vergleicht. In unserer Arbeit evaluieren wir systematisch zwei Modelle, ChatGPT (basierend auf GPT-3.5) und GPT-4, und vergleichen ihre Leistung mit der menschlicher Tutoren für verschiedene Szenarien. Wir bewerten die Modelle anhand von fünf einführenden Python-Programmieraufgaben und realen fehlerhaften Programmen von einer Online-Plattform und beurteilen die Leistung mithilfe von Expertenannotationen. Unsere Ergebnisse zeigen, dass GPT-4 ChatGPT (basierend auf GPT-3.5) deutlich übertrifft und in mehreren Szenarien nahe an die Leistung menschlicher Tutoren heranreicht. Diese Ergebnisse verdeutlichen auch Bereiche, in denen GPT-4 noch Schwierigkeiten hat, und bieten spannende zukünftige Forschungsrichtungen, um Techniken zur Verbesserung der Leistung dieser Modelle zu entwickeln.
Genomische (DNA-)Sequenzen kodieren eine enorme Menge an Informationen für die Genregulation und Proteinsynthese. Ähnlich wie bei natürlichen Sprachmodellen haben Forscher Foundation-Modelle in der Genomik vorgeschlagen, um generalisierbare Merkmale aus unmarkierten Genomdaten zu lernen, die dann für nachgelagerte Aufgaben wie die Identifizierung regulatorischer Elemente feinabgestimmt werden können. Aufgrund der quadratischen Skalierung der Aufmerksamkeit haben bisherige Transformer-basierte Genommodelle 512 bis 4k Token als Kontext verwendet (<0,001 % des menschlichen Genoms), was die Modellierung langreichweitiger Interaktionen in der DNA erheblich einschränkt. Darüber hinaus verlassen sich diese Methoden auf Tokenizer, um bedeutungsvolle DNA-Einheiten zu aggregieren, wodurch die Einzelnukleotid-Auflösung verloren geht, bei der subtile genetische Variationen die Proteinfunktion durch Einzelnukleotid-Polymorphismen (SNPs) vollständig verändern können. Kürzlich wurde gezeigt, dass Hyena, ein großes Sprachmodell, das auf impliziten Faltungen basiert, die Qualität der Aufmerksamkeit erreicht, während es längere Kontextlängen und eine geringere Zeitkomplexität ermöglicht. Unter Nutzung der neuen langreichweitigen Fähigkeiten von Hyena präsentieren wir HyenaDNA, ein genomisches Foundation-Modell, das auf dem menschlichen Referenzgenom mit Kontextlängen von bis zu 1 Million Token auf Einzelnukleotid-Ebene vortrainiert wurde, was einer bis zu 500-fachen Steigerung gegenüber früheren dichten Aufmerksamkeitsmodellen entspricht. HyenaDNA skaliert subquadratisch in der Sequenzlänge (bis zu 160-mal schneller als Transformer), verwendet Einzelnukleotid-Token und verfügt in jeder Schicht über einen vollständigen globalen Kontext. Wir untersuchen, was längere Kontexte ermöglichen – einschließlich der ersten Anwendung von In-Context-Learning in der Genomik zur einfachen Anpassung an neue Aufgaben ohne Aktualisierung der vortrainierten Modellgewichte. Bei feinabgestimmten Benchmarks des Nucleotide Transformers erreicht HyenaDNA den State-of-the-Art (SotA) auf 12 von 17 Datensätzen mit einem Modell, das um Größenordnungen weniger Parameter und Vortrainingsdaten verwendet. Auf den GenomicBenchmarks übertrifft HyenaDNA den SotA auf allen 8 Datensätzen im Durchschnitt um +9 Genauigkeitspunkte.
Instruction Tuning erschließt die überlegene Fähigkeit von Large Language Models (LLM), mit Menschen zu interagieren. Darüber hinaus umfassen neuere Instruction-Following-Datensätze Bilder als visuelle Eingaben und sammeln Antworten auf bildbasierte Anweisungen. Allerdings können visuell instruction-getunte Modelle textliche Details innerhalb von Bildern nicht gut erfassen. Diese Arbeit verbessert die aktuelle Pipeline für visuelles Instruction Tuning mit textreichen Bildern (z.B. Filmplakate, Buchcover usw.). Konkret verwenden wir zunächst öffentlich verfügbare OCR-Tools, um Ergebnisse für 422K textreiche Bilder aus dem LAION-Datensatz zu sammeln. Darüber hinaus verwenden wir textbasiertes GPT-4 mit erkannten Texten und Bildbeschreibungen, um 16K Konversationen zu generieren, die jeweils Frage-Antwort-Paare für textreiche Bilder enthalten. Durch die Kombination unserer gesammelten Daten mit früheren multimodalen Instruction-Following-Daten verbessert unser Modell, LLaVAR, die Fähigkeiten des LLaVA-Modells bei textbasierten VQA-Datensätzen erheblich (bis zu 20% Genauigkeitssteigerung) und erreicht eine Genauigkeit von 91,42% bei ScienceQA. Die auf GPT-4 basierende Instruction-Following-Evaluation zeigt ebenfalls die Verbesserung unseres Modells sowohl bei natürlichen als auch bei textreichen Bildern. Durch qualitative Analysen zeigt LLaVAR vielversprechende Interaktionsfähigkeiten (z.B. Schlussfolgerungen, Schreiben und Ausarbeitungen) mit Menschen basierend auf den neuesten realen Online-Inhalten, die Text und Bilder kombinieren. Wir stellen unseren Code/Daten/Modelle öffentlich unter https://llavar.github.io/ zur Verfügung.
Große Sprachmodelle (LLMs) repräsentieren möglicherweise nicht gerecht die vielfältigen globalen Perspektiven auf gesellschaftliche Themen. In diesem Artikel entwickeln wir einen quantitativen Rahmen, um zu bewerten, wessen Meinungen die modellgenerierten Antworten stärker ähneln. Zunächst erstellen wir einen Datensatz, GlobalOpinionQA, der Fragen und Antworten aus länderübergreifenden Umfragen umfasst, die darauf abzielen, unterschiedliche Meinungen zu globalen Themen in verschiedenen Ländern zu erfassen. Anschließend definieren wir eine Metrik, die die Ähnlichkeit zwischen den von LLM generierten Umfrageantworten und menschlichen Antworten quantifiziert, wobei das Land als Bedingung berücksichtigt wird. Mit unserem Rahmen führen wir drei Experimente an einem LLM durch, das darauf trainiert wurde, hilfreich, ehrlich und harmlos zu sein, basierend auf Constitutional AI. Standardmäßig tendieren die LLM-Antworten dazu, den Meinungen bestimmter Bevölkerungsgruppen, wie denen aus den USA sowie einigen europäischen und südamerikanischen Ländern, stärker zu ähneln, was das Potenzial für Verzerrungen aufzeigt. Wenn wir das Modell dazu anregen, die Perspektive eines bestimmten Landes zu berücksichtigen, verschieben sich die Antworten, um den Meinungen der angeregten Bevölkerungsgruppen stärker zu ähneln, können jedoch schädliche kulturelle Stereotype widerspiegeln. Wenn wir die Fragen von GlobalOpinionQA in eine Zielsprache übersetzen, werden die Antworten des Modells nicht unbedingt den Meinungen der Sprecher dieser Sprachen am ähnlichsten. Wir stellen unseren Datensatz zur Verfügung, damit andere ihn nutzen und darauf aufbauen können. Unsere Daten sind unter https://huggingface.co/datasets/Anthropic/llm_global_opinions verfügbar. Wir bieten auch eine interaktive Visualisierung unter https://llmglobalvalues.anthropic.com an.
Denoising-Diffusionsmodelle haben kürzlich beeindruckende Ergebnisse bei generativen Aufgaben gezeigt. Indem sie mächtige Prioritäten aus umfangreichen Sammlungen von Trainingsbildern lernen, sind solche Modelle in der Lage, vollständiges Rauschen schrittweise über eine Sequenz kleiner Denoising-Schritte in ein sauberes natürliches Bild zu verwandeln, was sie scheinbar gut für die Einzelbild-Rauschunterdrückung geeignet macht. Die effektive Anwendung von Denoising-Diffusionsmodellen zur Entfernung realistischen Rauschens ist jedoch schwieriger, als es zunächst erscheinen mag, da ihre Formulierung auf additivem weißem Gaußschen Rauschen basiert, im Gegensatz zum Rauschen in realen Bildern. In dieser Arbeit präsentieren wir SVNR, eine neuartige Formulierung des Denoising-Diffusionsprozesses, die ein realistischeres, räumlich variantes Rauschmodell annimmt. SVNR ermöglicht es, das verrauschte Eingabebild als Ausgangspunkt für den Denoising-Diffusionsprozess zu verwenden, zusätzlich zur Konditionierung des Prozesses darauf. Zu diesem Zweck passen wir den Diffusionsprozess an, um jedem Pixel seine eigene Zeit-Einbettung zu ermöglichen, und schlagen Trainings- und Inferenzschemata vor, die räumlich variierende Zeitkarten unterstützen. Unsere Formulierung berücksichtigt auch die Korrelation, die zwischen dem Konditionsbild und den Proben entlang des modifizierten Diffusionsprozesses besteht. In unseren Experimenten demonstrieren wir die Vorteile unseres Ansatzes gegenüber einem starken Diffusionsmodell-Baseline sowie gegenüber einer state-of-the-art Methode zur Einzelbild-Rauschunterdrückung.
Die Fähigkeit, fehlgeschlagene Ausführungen automatisch zu erkennen und zu analysieren, ist entscheidend für ein erklärbares und robustes Robotersystem. Kürzlich haben Large Language Models (LLMs) starke Fähigkeiten im Bereich des gesunden Menschenverstands bei der Verarbeitung von Texteingaben gezeigt. Um die Leistungsfähigkeit von LLMs für die Erklärung von Roboterfehlern zu nutzen, schlagen wir das Framework REFLECT vor, das multisensorische Daten in eine hierarchische Zusammenfassung vergangener Robotererfahrungen umwandelt und LLMs mit einem progressiven Algorithmus zur Fehlererklärung abfragt. Basierend auf der Erklärung generiert ein Fehlerkorrekturplaner einen ausführbaren Plan, damit der Roboter den Fehler beheben und die Aufgabe abschließen kann. Um das Framework systematisch zu evaluieren, erstellen wir den RoboFail-Datensatz und zeigen, dass unser LLM-basiertes Framework in der Lage ist, informative Fehlererklärungen zu generieren, die eine erfolgreiche Korrekturplanung unterstützen. Projektwebsite: https://roboreflect.github.io/
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten für eine Vielzahl von Anwendungen gezeigt, doch die Genauigkeit bleibt ein wichtiger Wachstumsbereich, insbesondere in kritischen Domänen wie der Biomedizin. Eine effektive Methode zur Kalibrierung des Konfidenzniveaus von LLM-Antworten ist entscheidend, um Fehler automatisch zu erkennen und die menschliche Überprüfung zu erleichtern. Eine wichtige Quelle für Kalibrierungssignale stammt von programmatischer Aufsicht, die von Experten festgelegt wird und oft kostengünstig verfügbar ist, jedoch eigene Einschränkungen wie Rauschen und Abdeckung aufweist. In diesem Artikel stellen wir ein Pareto-optimales Selbstüberwachungsframework vor, das die verfügbare programmatische Aufsicht nutzen kann, um LLM-Antworten systematisch zu kalibrieren, indem es für jede Antwort ein Risikoscore erzeugt, ohne zusätzlichen manuellen Aufwand. Dies wird erreicht, indem ein Harmonizer-Modell gelernt wird, um die LLM-Ausgabe mit anderen verfügbaren Aufsichtsquellen abzugleichen, das höhere Risikoscores für unsichere LLM-Antworten vergibt und die Fehlerkorrektur erleichtert. Experimente zu standardmäßigen Relationsextraktionsaufgaben in biomedizinischen und allgemeinen Domänen zeigen das Potenzial dieses Ansatzes, wobei unsere vorgeschlagenen Risikoscores stark mit der tatsächlichen Fehlerrate der LLMs korrelieren. Für die unsichersten Testinstanzen führt dynamisches Prompting basierend auf unseren vorgeschlagenen Risikoscores zu einer signifikanten Verbesserung der Genauigkeit von Standard-LLMs, wobei die GPT-3-Ergebnisse den Stand der Technik (SOTA) der schwachen Aufsicht übertreffen und die GPT-4-Ergebnisse die SOTA-überwachten Ergebnisse auf anspruchsvollen Evaluierungsdatensätzen übertreffen.
Aktuelle End-to-End-Systeme zur automatischen Spracherkennung (ASR) verwenden häufig einen Transformer-basierten akustischen Encoder, der Einbettungen mit einer hohen Bildrate erzeugt. Dieses Design ist jedoch ineffizient, insbesondere bei langen Sprachsignalen, aufgrund der quadratischen Berechnung der Selbstaufmerksamkeit. Um dies zu beheben, schlagen wir eine neue Methode vor, das sogenannte Adjacent Token Merging (A-ToMe), bei der benachbarte Token mit hohen Ähnlichkeitswerten zwischen ihren Schlüsselwerten schrittweise kombiniert werden. Auf diese Weise kann die Gesamtzahl der Zeitschritte reduziert werden, und die Inferenz sowohl des Encoders als auch des gemeinsamen Netzwerks wird beschleunigt. Experimente auf LibriSpeech zeigen, dass unsere Methode 57 % der Token reduzieren und die Inferenzgeschwindigkeit auf der GPU um 70 % steigern kann, ohne dass es zu einem nennenswerten Genauigkeitsverlust kommt. Darüber hinaus demonstrieren wir, dass A-ToMe auch eine effektive Lösung zur Reduzierung von Token in der Langform-ASR ist, bei der die Eingabesprache aus mehreren Äußerungen besteht.