Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen fest, dass die Leistung großer Sprachmodelle (LLMs) allein durch eine Sampling-und-Abstimmungs-Methode mit der Anzahl der instanziierten Agenten skaliert. Darüber hinaus ist diese Methode orthogonal zu bestehenden komplexen Methoden zur weiteren Verbesserung von LLMs, wobei das Ausmaß der Verbesserung mit der Schwierigkeit der Aufgabe korreliert. Wir führen umfassende Experimente auf einer breiten Palette von LLM-Benchmarks durch, um die Gültigkeit unserer Erkenntnis zu überprüfen und die Eigenschaften zu untersuchen, die ihr Auftreten begünstigen. Unser Code ist öffentlich verfügbar unter: https://anonymous.4open.science/r/more_agent_is_all_you_need.
Wir schlagen das Problem der konversationellen Webnavigation vor, bei dem ein digitaler Agent einen Webbrowser steuert und Benutzeranweisungen folgt, um reale Aufgaben in einem mehrschrittigen Dialog zu lösen. Um dieses Problem zu unterstützen, führen wir WEBLINX ein – einen umfangreichen Benchmark mit 100.000 Interaktionen aus 2300 Experten-Demonstrationen der konversationellen Webnavigation. Unser Benchmark deckt eine breite Palette von Mustern auf über 150 realen Websites ab und kann verwendet werden, um Agenten in verschiedenen Szenarien zu trainieren und zu bewerten. Aufgrund der Fülle an Informationen können Large Language Models (LLMs) ganze Webseiten nicht in Echtzeit verarbeiten. Um diesen Engpass zu lösen, entwerfen wir ein Modell, das von der Informationsrückgewinnung inspiriert ist und HTML-Seiten effizient durch die Bewertung relevanter Elemente reduziert. Wir verwenden die ausgewählten Elemente zusammen mit Screenshots und Aktionsverläufen, um eine Vielzahl von Modellen hinsichtlich ihrer Fähigkeit zu bewerten, menschliches Verhalten bei der Webnavigation nachzuahmen. Unsere Experimente reichen von kleinen textbasierten bis hin zu proprietären multimodalen LLMs. Wir stellen fest, dass kleinere, feinabgestimmte Decoder die besten Zero-Shot-LLMs (einschließlich GPT-4V) übertreffen, aber auch größere, feinabgestimmte multimodale Modelle, die explizit auf Screenshots vortrainiert wurden. Allerdings haben alle feinabgestimmten Modelle Schwierigkeiten, sich auf unbekannte Websites zu verallgemeinern. Unsere Ergebnisse unterstreichen die Notwendigkeit großer multimodaler Modelle, die sich auf neue Umgebungen verallgemeinern können. Unser Code, Daten und Modelle sind für die Forschung verfügbar: https://mcgill-nlp.github.io/weblinx
Die Entwicklung von künstlichen Intelligenzsystemen vollzieht derzeit einen Wandel von der Erstellung statischer, aufgabenbezogener Modelle hin zu dynamischen, agentenbasierten Systemen, die in einer Vielzahl von Anwendungen effektiv agieren können. Wir schlagen ein interaktives Agenten-Foundation-Modell vor, das ein neuartiges Multi-Task-Agenten-Trainingsparadigma nutzt, um KI-Agenten über verschiedene Domänen, Datensätze und Aufgaben hinweg zu trainieren. Unser Trainingsparadigma vereint diverse Vor-Trainingsstrategien, darunter visuelle maskierte Autoencoder, Sprachmodellierung und Vorhersage der nächsten Aktion, und ermöglicht so ein vielseitiges und anpassungsfähiges KI-Framework. Wir demonstrieren die Leistungsfähigkeit unseres Frameworks in drei separaten Domänen – Robotik, Gaming-KI und Gesundheitswesen. Unser Modell zeigt seine Fähigkeit, in jedem Bereich sinnvolle und kontextbezogene Ausgaben zu generieren. Die Stärke unseres Ansatzes liegt in seiner Allgemeingültigkeit, da er eine Vielzahl von Datenquellen wie Robotiksequenzen, Spieledaten, groß angelegte Videodatensätze und textuelle Informationen für effektives multimodales und Multi-Task-Lernen nutzt. Unser Ansatz bietet einen vielversprechenden Weg zur Entwicklung generalistischer, handlungsorientierter, multimodaler Systeme.
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Fähigkeit bewiesen, natürliche Sprache zu verstehen und zu generieren. Ihre Fähigkeiten lassen jedoch in hochspezialisierten Domänen nach, die im Vortrainingskorpus unterrepräsentiert sind, wie beispielsweise in den physikalischen und biomedizinischen Wissenschaften. Diese Arbeit untersucht, wie allgemeine LLMs in effektive Problemlöser für spezialisierte Domänen umgewandelt werden können. Wir stellen ein neuartiges, modellunabhängiges Framework vor, das das Lernen von benutzerdefinierten Eingabe-Tags ermöglicht, die als kontinuierliche Vektoren parametrisiert und an die Einbettungsschicht des LLM angehängt werden, um das LLM zu konditionieren. Wir entwerfen zwei Arten von Eingabe-Tags: Domänen-Tags werden verwendet, um spezialisierte Darstellungen (z.B. chemische Formeln) abzugrenzen und domänenrelevante Kontexte bereitzustellen; Funktions-Tags werden verwendet, um spezifische Funktionen (z.B. die Vorhersage von Moleküleigenschaften) darzustellen und Anweisungen zur Problemlösung zu komprimieren. Wir entwickeln ein dreistufiges Protokoll, um diese Tags mithilfe von Hilfsdaten und Domänenwissen zu lernen. Durch die explizite Entkopplung von Aufgabenbereichen und Aufgabenfunktionen ermöglicht unsere Methode eine Null-Shot-Generalisierung auf ungesehene Probleme durch diverse Kombinationen der Eingabe-Tags. Sie steigert auch die Leistung des LLM in verschiedenen spezialisierten Domänen, wie der Vorhersage von Protein- oder chemischen Eigenschaften und der Modellierung von Wirkstoff-Ziel-Interaktionen, und übertrifft dabei auf diese Aufgaben zugeschnittene Expertenmodelle.
Dieser technische Bericht stellt die Trainingsmethodik und Evaluierungsergebnisse der Open-Source-Multilingual-E5-Text-Embedding-Modelle vor, die Mitte 2023 veröffentlicht wurden. Es werden drei Embedding-Modelle unterschiedlicher Größe (small / base / large) bereitgestellt, die einen Ausgleich zwischen Inferenzeffizienz und Embedding-Qualität bieten. Das Trainingsverfahren folgt dem Rezept des englischen E5-Modells und umfasst kontrastives Vortraining anhand von 1 Milliarde mehrsprachiger Textpaare, gefolgt von Feinabstimmung auf einer Kombination annotierter Datensätze. Zusätzlich führen wir ein neues, instruktionsfeinabgestimmtes Embedding-Modell ein, dessen Leistung mit state-of-the-art, ausschließlich englischsprachigen Modellen ähnlicher Größe vergleichbar ist. Informationen zur Modellveröffentlichung finden Sie unter https://github.com/microsoft/unilm/tree/master/e5.
Trotz der jüngsten Fortschritte in personalisierten Text-zu-Bild (P-T2I) Generationsmodellen bleibt die subjektgesteuerte T2I-Generierung eine Herausforderung. Die Hauptengpässe umfassen 1) den hohen Bedarf an Trainingsressourcen, 2) die Hyperparameter-Empfindlichkeit, die zu inkonsistenten Ergebnissen führt, und 3) die Balance zwischen den Feinheiten neuartiger visueller Konzepte und der Kompositionsausrichtung. Wir beginnen mit einer Wiederholung der Kernphilosophie von T2I-Diffusionsmodellen, um diese Einschränkungen zu adressieren. Vorherrschend stützen sich zeitgenössische subjektgesteuerte T2I-Ansätze auf Latent Diffusion Models (LDMs), die die T2I-Abbildung durch Cross-Attention-Schichten ermöglichen. Obwohl LDMs deutliche Vorteile bieten, erhöht die Abhängigkeit der P-T2I-Methoden vom latenten Raum dieser Diffusionsmodelle den Ressourcenbedarf erheblich, führt zu inkonsistenten Ergebnissen und erfordert zahlreiche Iterationen für ein einziges gewünschtes Bild. Kürzlich hat ECLIPSE einen ressourceneffizienteren Weg für das Training von UnCLIP-basierten T2I-Modellen aufgezeigt, der den Bedarf an Diffusions-Text-zu-Bild-Priors umgeht. Aufbauend darauf führen wir lambda-ECLIPSE ein. Unsere Methode zeigt, dass effektive P-T2I nicht zwangsläufig vom latenten Raum der Diffusionsmodelle abhängt. lambda-ECLIPSE erreicht die Personalisierung von Einzel-, Mehrfachsubjekt- und kantenorientierten T2I mit nur 34M Parametern und wird in lediglich 74 GPU-Stunden mit 1,6M Bild-Text-verknüpften Daten trainiert. Durch umfangreiche Experimente stellen wir auch fest, dass lambda-ECLIPSE bestehende Baselines in der Kompositionsausrichtung übertrifft, während die Konzeptausrichtungsleistung bei deutlich geringerem Ressourcenverbrauch erhalten bleibt.
In-Context-Learning (ICL, auch bekannt als Few-Shot-Prompting) war die Standardmethode, um große Sprachmodelle (LLMs) für nachgelagerte Aufgaben anzupassen, indem sie aus wenigen Eingabe-Ausgabe-Beispielen lernen. Dennoch lernen alle ICL-basierten Ansätze ausschließlich aus korrekten Eingabe-Ausgabe-Paaren. In diesem Papier überdenken wir dieses Paradigma, indem wir mehr aus den wenigen gegebenen Eingabe-Ausgabe-Beispielen lernen. Wir führen Learning Principles (LEAP) ein: Zuerst veranlassen wir das Modell absichtlich, Fehler bei diesen wenigen Beispielen zu machen; dann reflektieren wir über diese Fehler und lernen explizite, aufgabenbezogene „Prinzipien“ daraus, die helfen, ähnliche Probleme zu lösen und häufige Fehler zu vermeiden; schließlich fordern wir das Modell auf, unbeantwortete Testfragen mithilfe der ursprünglichen Few-Shot-Beispiele und dieser gelernten allgemeinen Prinzipien zu beantworten. Wir evaluieren LEAP auf einer breiten Palette von Benchmarks, darunter Multi-Hop-Fragebeantwortung (Hotpot QA), textbasierte Fragebeantwortung (DROP), Big-Bench Hard Reasoning und mathematische Probleme (GSM8K und MATH); in all diesen Benchmarks verbessert LEAP die leistungsstärksten verfügbaren LLMs wie GPT-3.5-turbo, GPT-4, GPT-4 Turbo und Claude-2.1. Beispielsweise verbessert LEAP das standardmäßige Few-Shot-Prompting mit GPT-4 um 7,5 % in DROP und um 3,3 % in HotpotQA. Wichtig ist, dass LEAP keine zusätzlichen Eingaben oder Beispiele benötigt als die Standard-Few-Shot-Prompting-Einstellungen.
Wir präsentieren SPHINX-X, eine umfangreiche Serie von Multimodalität Large Language Models (MLLMs), die auf SPHINX basiert. Um die Architektur und Trainings effizienz zu verbessern, modifizieren wir das SPHINX-Framework, indem wir redundante visuelle Encoder entfernen, vollständig gepolsterte Teilbilder mit Skip-Tokens umgehen und das mehrstufige Training in ein einstufiges All-in-One-Paradigma vereinfachen. Um das Potenzial von MLLMs voll auszuschöpfen, stellen wir einen umfassenden multi-domänen und multimodalen Datensatz zusammen, der öffentlich verfügbare Ressourcen in den Bereichen Sprache, Vision und Vision-Sprache-Aufgaben abdeckt. Wir erweitern diese Sammlung durch unsere kuratierten OCR-intensiven und Set-of-Mark-Datensätze, wodurch die Vielfalt und Allgemeingültigkeit erhöht wird. Durch das Training über verschiedene Basis-LLMs, darunter TinyLlama1.1B, InternLM2-7B, LLaMA2-13B und Mixtral8x7B, erhalten wir eine Reihe von MLLMs, die sich in Parametergröße und mehrsprachigen Fähigkeiten unterscheiden. Umfassende Benchmarking-Ergebnisse zeigen eine starke Korrelation zwischen der multimodalen Leistung und den Daten- und Parameterskalen. Code und Modelle sind unter https://github.com/Alpha-VLLM/LLaMA2-Accessory verfügbar.
Wir stellen SPIRIT-LM vor, ein multimodales Basissprachmodell, das Text und Sprache frei kombiniert. Unser Modell basiert auf einem vortrainierten Textsprachmodell, das wir durch kontinuierliches Training mit Text- und Spracheinheiten auf die Sprachmodalität erweitern. Sprach- und Textsequenzen werden als ein einziger Satz von Tokens verkettet und mit einer wortbasierten Verschachtelungsmethode unter Verwendung eines kleinen, automatisch kuratierten Sprach-Text-Parallelkorpus trainiert. SPIRIT-LM gibt es in zwei Versionen: eine BASIS-Version, die semantische Spracheinheiten verwendet, und eine EXPRESSIVE-Version, die zusätzlich zu den semantischen Einheiten auch Expressivität durch Tonhöhen- und Stileinheiten modelliert. Bei beiden Versionen wird der Text mit Subword-BPE-Tokens kodiert. Das resultierende Modell zeigt sowohl die semantischen Fähigkeiten von Textmodellen als auch die expressiven Fähigkeiten von Sprachmodellen. Darüber hinaus demonstrieren wir, dass SPIRIT-LM in der Lage ist, neue Aufgaben in einem Few-Shot-Verfahren über Modalitäten hinweg zu lernen (z. B. ASR, TTS, Sprachklassifikation).
In diesem Artikel stellen wir ein neuartiges Paradigma vor, um die Fähigkeit von Objektdetektoren zu verbessern, beispielsweise durch die Erweiterung von Kategorien oder die Steigerung der Detektionsleistung, indem wir auf synthetischen Datensätzen trainieren, die von Diffusionsmodellen generiert werden. Konkret integrieren wir einen instanzbasierten Grounding-Head in ein vortrainiertes, generatives Diffusionsmodell, um es mit der Fähigkeit auszustatten, beliebige Instanzen in den generierten Bildern zu lokalisieren. Der Grounding-Head wird darauf trainiert, die Text-Einbettungen von Kategorienamen mit den regionalen visuellen Merkmalen des Diffusionsmodells abzugleichen, wobei die Supervision von einem Standard-Objektdetektor sowie einem neuartigen Selbsttrainingsschema für (neue) Kategorien, die vom Detektor nicht abgedeckt werden, stammt. Diese erweiterte Version des Diffusionsmodells, die wir als InstaGen bezeichnen, kann als Datensynthesizer für die Objekterkennung dienen. Wir führen umfangreiche Experimente durch, um zu zeigen, dass Objektdetektoren durch das Training auf dem synthetischen Datensatz von InstaGen verbessert werden können, wobei sie eine überlegene Leistung gegenüber bestehenden State-of-the-Art-Methoden in offenen Vokabular-Szenarien (+4,5 AP) und datenarmen Situationen (+1,2 bis 5,2 AP) demonstrieren.
Die meisten transformerbasierten Video-Encoder sind aufgrund ihrer quadratischen Komplexität auf kurze zeitliche Kontexte beschränkt. Obwohl verschiedene Versuche unternommen wurden, diesen Kontext zu erweitern, ging dies oft mit einem Anstieg sowohl der konzeptionellen als auch der rechnerischen Komplexität einher. Wir schlagen stattdessen vor, bestehende vortrainierte Video-Transformer umzuwidmen, indem sie einfach feinabgestimmt werden, um Erinnerungen zu berücksichtigen, die nicht-parametrisch aus vergangenen Aktivierungen abgeleitet werden. Durch die Nutzung von Redundanzreduktion erweitert unser speicherkonsolidierter Vision-Transformer (MC-ViT) mühelos seinen Kontext weit in die Vergangenheit und zeigt ein hervorragendes Skalierungsverhalten beim Lernen aus längeren Videos. Dadurch setzt MC-ViT einen neuen Maßstab für das Verständnis von langen Video-Kontexten auf EgoSchema, Perception Test und Diving48 und übertrifft Methoden, die von einer um Größenordnungen höheren Anzahl an Parametern profitieren.
Vision-Language (VL)-Modelle haben erhebliche Forschungsaufmerksamkeit erlangt und bemerkenswerte Fortschritte im multimodalen Denken ermöglicht. Diese Architekturen bestehen typischerweise aus einem Vision-Encoder, einem Large Language Model (LLM) und einem Projektionsmodul, das visuelle Merkmale mit dem Repräsentationsraum des LLM abstimmt. Trotz ihrer Erfolge besteht eine entscheidende Einschränkung: Der Prozess der visuellen Kodierung bleibt von Benutzeranfragen, oft in Form von bildbezogenen Fragen, entkoppelt. Folglich sind die resultierenden visuellen Merkmale möglicherweise nicht optimal auf die fragenspezifischen Elemente des Bildes abgestimmt. Um dies zu beheben, führen wir QA-ViT ein, einen Question Aware Vision Transformer-Ansatz für multimodales Denken, der das Bewusstsein für Fragen direkt in den Vision-Encoder integriert. Diese Integration führt zu dynamischen visuellen Merkmalen, die sich auf die relevanten Aspekte des Bildes in Bezug auf die gestellte Frage konzentrieren. QA-ViT ist modellagnostisch und kann effizient in jede VL-Architektur eingebunden werden. Umfangreiche Experimente demonstrieren die Wirksamkeit der Anwendung unserer Methode auf verschiedene multimodale Architekturen, was zu einer konsistenten Verbesserung über diverse Aufgaben hinweg führt und ihr Potenzial zur Verbesserung des visuellen und Szenentextverständnisses aufzeigt.
Wir stellen einen neuen Algorithmus vor, um Verteilungen zu optimieren, die implizit durch parametrisierte stochastische Diffusionen definiert sind. Dies ermöglicht es uns, die Ergebnisverteilung von Sampling-Prozessen zu modifizieren, indem wir ihre Parameter optimieren. Wir führen ein allgemeines Framework für die Optimierung erster Ordnung dieser Prozesse ein, das Optimierungs- und Sampling-Schritte gemeinsam in einer einzigen Schleife durchführt. Dieser Ansatz ist inspiriert durch jüngste Fortschritte in der bilevel-Optimierung und der automatischen impliziten Differentiation, wobei die Sichtweise des Samplings als Optimierung über den Raum der Wahrscheinlichkeitsverteilungen genutzt wird. Wir liefern theoretische Garantien für die Leistungsfähigkeit unserer Methode sowie experimentelle Ergebnisse, die ihre Wirksamkeit in realen Anwendungen demonstrieren.
Die Anpassung des Fahrverhaltens an neue Umgebungen, Gepflogenheiten und Gesetze ist ein langjähriges Problem im Bereich des autonomen Fahrens, das die breite Einführung autonomer Fahrzeuge (AVs) bisher verhindert hat. In diesem Artikel stellen wir LLaDA vor, ein einfaches, aber leistungsstarkes Werkzeug, das sowohl menschlichen Fahrern als auch autonomen Fahrzeugen ermöglicht, überall zu fahren, indem es ihre Aufgaben und Bewegungspläne an die Verkehrsregeln neuer Standorte anpasst. LLaDA erreicht dies, indem es die beeindruckende Zero-Shot-Generalisierungsfähigkeit großer Sprachmodelle (LLMs) nutzt, um die Verkehrsregeln in den lokalen Fahrerhandbüchern zu interpretieren. Durch eine umfangreiche Benutzerstudie zeigen wir, dass die Anweisungen von LLaDA nützlich sind, um unerwartete Situationen in der realen Welt zu klären. Wir demonstrieren auch die Fähigkeit von LLaDA, die Bewegungsplanungsstrategien von AVs in realen Datensätzen anzupassen; LLaDA übertrifft die Baseline-Planungsansätze in allen unseren Metriken. Weitere Details finden Sie auf unserer Website: https://boyiliee.github.io/llada.
Wir zeigen, dass Offline-Actor-Critic-Reinforcement-Learning auf große Modelle – wie beispielsweise Transformer – skaliert werden kann und ähnlichen Skalierungsgesetzen wie das überwachte Lernen folgt. Wir stellen fest, dass Offline-Actor-Critic-Algorithmen starke, überwachte Behavioral-Cloning-Baselines bei der Multi-Task-Ausbildung auf einem großen Datensatz, der sowohl suboptimale als auch Expertenverhalten auf 132 kontinuierlichen Steuerungsaufgaben enthält, übertreffen können. Wir führen ein Perceiver-basiertes Actor-Critic-Modell ein und erläutern die Schlüsselmerkmale des Modells, die erforderlich sind, um Offline-RL mit Selbst- und Kreuz-Attention-Modulen zu ermöglichen. Insgesamt kommen wir zu folgenden Ergebnissen: i) einfache Offline-Actor-Critic-Algorithmen sind eine natürliche Wahl, um sich schrittweise vom derzeit vorherrschenden Paradigma des Behavioral Cloning zu entfernen, und ii) durch Offline-RL ist es möglich, Multi-Task-Policies zu erlernen, die viele Domänen gleichzeitig beherrschen, einschließlich realer Robotikaufgaben, basierend auf suboptimalen Demonstrationen oder selbstgenerierten Daten.