Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Transformer haben nahezu alle Aufgaben der natürlichen Sprachverarbeitung (NLP) revolutioniert, leiden jedoch unter einem Speicher- und Rechenaufwand, der quadratisch mit der Sequenzlänge skaliert. Im Gegensatz dazu zeigen rekurrente neuronale Netze (RNNs) eine lineare Skalierung in Bezug auf Speicher- und Rechenanforderungen, erreichen jedoch aufgrund von Einschränkungen in der Parallelisierung und Skalierbarkeit nicht die gleiche Leistung wie Transformer. Wir schlagen eine neuartige Modellarchitektur vor, Receptance Weighted Key Value (RWKV), die das effiziente parallelisierbare Training von Transformern mit der effizienten Inferenz von RNNs kombiniert. Unser Ansatz nutzt einen linearen Aufmerksamkeitsmechanismus und ermöglicht es uns, das Modell entweder als Transformer oder als RNN zu formulieren, wodurch Berechnungen während des Trainings parallelisiert werden und während der Inferenz ein konstanter Rechen- und Speicheraufwand erhalten bleibt. Dies führt zur ersten Nicht-Transformer-Architektur, die auf zig Milliarden Parameter skaliert wurde. Unsere Experimente zeigen, dass RWKV ähnlich gut abschneidet wie vergleichbar große Transformer, was darauf hindeutet, dass zukünftige Arbeiten diese Architektur nutzen können, um effizientere Modelle zu entwickeln. Diese Arbeit stellt einen bedeutenden Schritt dar, um die Kompromisse zwischen Recheneffizienz und Modellleistung bei Sequenzverarbeitungsaufgaben zu überbrücken.
Jüngste Entwicklungen bei großen Sprachmodellen (LLMs) sind beeindruckend. Diese Modelle zeigen jedoch manchmal Inkonsistenzen und problematisches Verhalten, wie das Erfinden von Fakten, das Generieren fehlerhaften Codes oder das Erstellen anstößiger und toxischer Inhalte. Im Gegensatz dazu nutzen Menschen typischerweise externe Werkzeuge, um ihre ursprünglichen Inhalte zu überprüfen und zu verfeinern, beispielsweise eine Suchmaschine zur Faktenüberprüfung oder einen Code-Interpreter zum Debuggen. Inspiriert von dieser Beobachtung stellen wir ein Framework namens CRITIC vor, das es LLMs, die im Wesentlichen „Black Boxes“ sind, ermöglicht, ihre eigenen Ausgaben auf eine Weise zu validieren und schrittweise zu verbessern, die der menschlichen Interaktion mit Werkzeugen ähnelt. Konkret interagiert CRITIC, ausgehend von einer initialen Ausgabe, mit geeigneten Werkzeugen, um bestimmte Aspekte des Textes zu bewerten, und überarbeitet dann die Ausgabe basierend auf dem während dieses Validierungsprozesses erhaltenen Feedback. Umfassende Bewertungen, die freie Fragebeantwortung, mathematische Programmsynthese und Toxizitätsreduktion umfassen, zeigen, dass CRITIC die Leistung von LLMs konsequent verbessert. Gleichzeitig unterstreicht unsere Forschung die entscheidende Bedeutung von externem Feedback für die kontinuierliche Selbstverbesserung von LLMs.
Textgesteuerte Diffusionsmodelle haben beispiellose Fähigkeiten in der Bildgenerierung freigesetzt, während ihr Video-Pendant aufgrund der übermäßigen Trainingskosten der zeitlichen Modellierung noch hinterherhinkt. Neben der Trainingslast leiden die generierten Videos auch unter Inkonsistenzen im Erscheinungsbild und strukturellen Flackereffekten, insbesondere bei der Synthese langer Videos. Um diese Herausforderungen zu bewältigen, haben wir ein trainingsfreies Framework namens ControlVideo entwickelt, das eine natürliche und effiziente Text-zu-Video-Generierung ermöglicht. ControlVideo, das von ControlNet adaptiert wurde, nutzt die grobe strukturelle Konsistenz aus eingegebenen Bewegungssequenzen und führt drei Module ein, um die Videogenerierung zu verbessern. Erstens fügt ControlVideo, um die Erscheinungskohärenz zwischen den Bildern zu gewährleisten, eine vollständige Interaktion zwischen den Bildern in den Selbstaufmerksamkeitsmodulen hinzu. Zweitens wird ein Interleaved-Frame-Smoother eingeführt, der den Flackereffekt durch Frame-Interpolation auf alternierten Bildern reduziert. Schließlich wird ein hierarchischer Sampler verwendet, der effizient lange Videos erzeugt, indem jeder kurze Clip separat mit ganzheitlicher Kohärenz synthetisiert wird. Mit diesen Modulen ausgestattet, übertrifft ControlVideo den Stand der Technik bei umfangreichen Bewegungs-Prompt-Paaren sowohl quantitativ als auch qualitativ. Bemerkenswerterweise generiert es dank der effizienten Designs sowohl kurze als auch lange Videos innerhalb weniger Minuten mit einer NVIDIA 2080Ti. Der Code ist verfügbar unter https://github.com/YBYBZhang/ControlVideo.
Der Fortschritt im Bereich der autonomen Webnavigation wurde durch die Abhängigkeit von Milliarden explorativer Interaktionen mittels Online-Reinforcement-Learning sowie durch domänenspezifische Modellentwürfe behindert, die es erschweren, die Generalisierung aus umfangreichen Daten außerhalb der Domäne zu nutzen. In dieser Arbeit untersuchen wir das datengetriebene Offline-Training für Webagenten mit Vision-Language-Foundation-Modellen. Wir stellen einen instruktionsfolgenden multimodalen Agenten namens WebGUM vor, der sowohl Screenshots von Webseiten als auch HTML-Seiten beobachtet und Webnavigationsaktionen wie Klicken und Tippen ausgibt. WebGUM wird durch gemeinsames Finetuning eines instruktionsfinetunten Sprachmodells und eines Vision Transformers auf einem großen Korpus von Demonstrationen trainiert. Wir zeigen empirisch, dass dieser Ansatz die Fähigkeiten des Agenten in Bezug auf fundierte visuelle Wahrnehmung, HTML-Verständnis und mehrschrittiges Denken verbessert und dabei frühere Arbeiten deutlich übertrifft. Auf dem MiniWoB-Benchmark verbessern wir die bisher besten Offline-Methoden um mehr als 31,9 % und nähern uns dem Online-finetuned State-of-the-Art (SoTA) an. Auf dem WebShop-Benchmark erreicht unser 3-Milliarden-Parameter-Modell eine überlegene Leistung gegenüber dem bestehenden SoTA, PaLM-540B. Wir sammeln außerdem 347.000 hochwertige Demonstrationen mit unseren trainierten Modellen, was 38-mal mehr ist als in früheren Arbeiten, und stellen sie zur Verfügung, um zukünftige Forschung in dieser Richtung zu fördern.
Diffusionsmodelle sind eine Klasse flexibler generativer Modelle, die mit einer Annäherung an das Log-Likelihood-Ziel trainiert werden. Die meisten Anwendungsfälle von Diffusionsmodellen befassen sich jedoch nicht mit Likelihoods, sondern mit nachgelagerten Zielen wie der vom Menschen wahrgenommenen Bildqualität oder der Wirksamkeit von Medikamenten. In diesem Artikel untersuchen wir Methoden des Reinforcement Learning, um Diffusionsmodelle direkt für solche Ziele zu optimieren. Wir beschreiben, wie die Formulierung der Rauschunterdrückung als mehrstufiges Entscheidungsproblem eine Klasse von Policy-Gradient-Algorithmen ermöglicht, die wir als Denoising Diffusion Policy Optimization (DDPO) bezeichnen und die effektiver sind als alternative Ansätze mit belohnungsgewichteter Likelihood. Empirisch zeigt sich, dass DDPO in der Lage ist, Text-zu-Bild-Diffusionsmodelle an Ziele anzupassen, die schwer durch Prompting auszudrücken sind, wie beispielsweise Bildkomprimierbarkeit, sowie an Ziele, die aus menschlichem Feedback abgeleitet werden, wie ästhetische Qualität. Schließlich zeigen wir, dass DDPO die Prompt-Bild-Ausrichtung mithilfe von Feedback eines Vision-Language-Modells verbessern kann, ohne dass zusätzliche Datensammlung oder menschliche Annotation erforderlich ist.
In den letzten Jahren hat die Bildgenerierung einen erheblichen Leistungssprung gezeigt, wobei Diffusionsmodelle eine zentrale Rolle spielen. Obwohl diese Modelle hochwertige Bilder erzeugen, basieren sie hauptsächlich auf textuellen Beschreibungen. Dies wirft die Frage auf: „Wie können wir solche Modelle so anpassen, dass sie auf andere Modalitäten konditioniert sind?“. In diesem Artikel schlagen wir eine neuartige Methode vor, die latente Diffusionsmodelle, die für die Text-zu-Bild-Generierung trainiert wurden, nutzt, um Bilder auf Basis von Audioaufnahmen zu erzeugen. Unter Verwendung eines vortrainierten Audio-Encodierungsmodells codiert die vorgeschlagene Methode Audio in ein neues Token, das als Anpassungsschicht zwischen den Audio- und Textrepräsentationen betrachtet werden kann. Ein solches Modellierungsparadigma erfordert nur eine geringe Anzahl trainierbarer Parameter, was den vorgeschlagenen Ansatz für eine ressourcenschonende Optimierung attraktiv macht. Die Ergebnisse deuten darauf hin, dass die vorgeschlagene Methode den bewerteten Baseline-Methoden überlegen ist, sowohl in Bezug auf objektive als auch subjektive Metriken. Code und Beispiele sind verfügbar unter: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
Durch den Differentiable Search Index populär gemacht, formuliert das aufkommende Paradigma des generativen Retrievals das klassische Problem der Informationsbeschaffung als eine Sequenz-zu-Sequenz-Modellierungsaufgabe neu und verzichtet dabei auf externe Indizes, indem es ein gesamtes Dokumentenkorpus innerhalb eines einzigen Transformers kodiert. Obwohl viele verschiedene Ansätze vorgeschlagen wurden, um die Effektivität des generativen Retrievals zu verbessern, wurden diese bisher nur auf Dokumentenkorpora in der Größenordnung von 100.000 Elementen evaluiert. Wir führen die erste empirische Studie zu generativen Retrieval-Techniken über verschiedene Korpusgrößen durch und skalieren schließlich bis zur gesamten MS MARCO Passage-Ranking-Aufgabe mit einem Korpus von 8,8 Millionen Passagen und Modellgrößen von bis zu 11 Milliarden Parametern. Wir decken mehrere Erkenntnisse über die Skalierung des generativen Retrievals auf Millionen von Passagen auf; insbesondere die zentrale Bedeutung der Verwendung synthetischer Anfragen als Dokumentendarstellungen während der Indizierung, die Unwirksamkeit bestehender vorgeschlagener Architekturmodifikationen unter Berücksichtigung der Rechenkosten und die Grenzen der naiven Skalierung von Modellparametern in Bezug auf die Retrieval-Leistung. Während wir feststellen, dass das generative Retrieval auf kleinen Korpora mit state-of-the-art Dual Encodern konkurrieren kann, bleibt die Skalierung auf Millionen von Passagen eine wichtige und ungelöste Herausforderung. Wir glauben, dass diese Erkenntnisse für die Gemeinschaft wertvoll sein werden, um den aktuellen Stand des generativen Retrievals zu klären, die einzigartigen Herausforderungen hervorzuheben und neue Forschungsrichtungen zu inspirieren.
Im Bereich der Audioverarbeitung hat Transfer Learning den Aufstieg von Self-Supervised Learning und Zero-Shot Learning Techniken ermöglicht. Diese Ansätze haben zur Entwicklung vielseitiger Modelle geführt, die in der Lage sind, eine breite Palette von Aufgaben zu bewältigen und dabei Spitzenleistungen zu erzielen. Allerdings fehlt es aktuellen Modellen grundsätzlich an der Fähigkeit, die erforderliche Sprache für offene Aufgaben wie Audio Captioning oder Audio Question & Answering zu erzeugen. Wir stellen Pengi vor, ein neuartiges Audio-Sprachmodell, das Transfer Learning nutzt, indem es alle Audioaufgaben als Textgenerierungsaufgaben formuliert. Es nimmt eine Audioaufnahme und Text als Eingabe und erzeugt freien Text als Ausgabe. Das Eingabeaudio wird durch einen Audio-Encoder als eine Folge kontinuierlicher Embeddings dargestellt. Ein Text-Encoder verfährt ebenso mit dem entsprechenden Texteingabe. Beide Sequenzen werden als Präfix kombiniert, um ein vortrainiertes, eingefrorenes Sprachmodell zu steuern. Die einheitliche Architektur von Pengi ermöglicht sowohl offene als auch geschlossene Aufgaben ohne zusätzliches Fine-Tuning oder aufgabenspezifische Erweiterungen. Bei der Bewertung von 22 nachgelagerten Aufgaben erzielt unser Ansatz in mehreren davon Spitzenleistungen. Unsere Ergebnisse zeigen, dass die Verbindung von Sprachmodellen mit Audiomodellen ein wichtiger Schritt hin zu einem allgemeinen Audioverständnis ist.
Der jüngste rasche Fortschritt beim Vortraining großer Sprachmodelle basierte auf der Verwendung selbstüberwachter Sprachmodellierungsziele wie der Vorhersage des nächsten Tokens oder der Spannenkorruption. Auf der anderen Seite werden maschinelle Übersetzungssysteme meist mit cross-lingualer Überwachung trainiert, die ausgerichtete Daten zwischen Quell- und Zielsprachen erfordert. Wir zeigen, dass das Vortraining großer Sprachmodelle mit einer Mischung aus einem selbstüberwachten Sprachmodellierungsziel und dem überwachten Ziel der maschinellen Übersetzung – und somit der Einbeziehung cross-lingualer paralleler Daten während des Vortrainings – Modelle mit besseren Fähigkeiten zum In-Context-Lernen hervorbringt. Da das Vortraining ein sehr ressourcenintensiver Prozess ist und eine Gittersuche nach dem besten Mischungsverhältnis zwischen den beiden Zielen unverhältnismäßig teuer wäre, schlagen wir eine einfache, aber effektive Strategie vor, um dieses während des Vortrainings zu erlernen.
Große Sprachmodelle (LLMs) sind dafür bekannt, signifikante Teile ihrer Trainingsdaten zu memorisieren. Es wurde gezeigt, dass Teile dieser memorisierten Inhalte durch einfaches Abfragen des Modells extrahiert werden können, was ein Datenschutzrisiko darstellt. Wir präsentieren einen neuartigen Ansatz, der Prompt-Tuning verwendet, um die Extraktionsraten von memorisierten Inhalten in LLMs zu steuern. Wir stellen zwei Prompt-Trainingsstrategien vor, um die Extraktionsraten zu erhöhen und zu verringern, die jeweils einem Angriff und einer Verteidigung entsprechen. Wir demonstrieren die Wirksamkeit unserer Techniken anhand von Modellen der GPT-Neo-Familie auf einem öffentlichen Benchmark. Für das GPT-Neo-Modell mit 1,3 Milliarden Parametern führt unser Angriff zu einer Steigerung der Extraktionsrate um 9,3 Prozentpunkte im Vergleich zu unserer Baseline. Unsere Verteidigung kann so angepasst werden, dass sie verschiedene Kompromisse zwischen Datenschutz und Nutzen durch einen benutzerdefinierten Hyperparameter erreicht. Wir erreichen eine Reduzierung der Extraktionsrate von bis zu 97,7 % relativ zu unserer Baseline, bei einer Zunahme der Perplexität um 16,9 %.
Große Sprachmodelle (LLMs) können verwendet werden, um kleinere, verfeinerte Datensätze durch Few-Shot-Prompting für Benchmarking, Feinabstimmung oder andere Anwendungsfälle zu generieren. Allerdings ist das Verständnis und die Bewertung dieser Datensätze schwierig, und die Fehlermodi von LLM-generierten Daten sind noch nicht gut verstanden. Insbesondere können die Daten auf überraschende Weise repetitiv sein, nicht nur semantisch, sondern auch syntaktisch und lexikalisch. Wir präsentieren LinguisticLens, ein neuartiges interaktives Visualisierungstool, um die syntaktische Vielfalt von LLM-generierten Datensätzen zu verstehen und zu analysieren. LinguisticLens clustert Text entlang syntaktischer, lexikalischer und semantischer Achsen. Es unterstützt die hierarchische Visualisierung eines Textdatensatzes, wodurch Benutzer schnell einen Überblick erhalten und einzelne Beispiele inspizieren können. Die Live-Demo ist verfügbar unter shorturl.at/zHOUV.
Repräsentationen aus unidirektionalen Sprachmodellen auf Transformer-Basis sind bekannt dafür, effektiv die Gehirnreaktionen auf natürliche Sprache vorherzusagen. Die meisten Studien, die Sprachmodelle mit Gehirnaktivitäten verglichen haben, verwendeten jedoch GPT-2 oder ähnlich große Sprachmodelle. Hier haben wir untersucht, ob größere Open-Source-Modelle wie die aus den OPT- und LLaMA-Familien besser darin sind, Gehirnreaktionen, die mittels fMRT aufgezeichnet wurden, vorherzusagen. In Übereinstimmung mit Skalierungsergebnissen aus anderen Kontexten fanden wir, dass die Vorhersageleistung des Gehirns log-linear mit der Modellgröße von 125M bis zu 30B Parametern skaliert, mit einer Steigerung der Encodierungsleistung um ~15 %, gemessen an der Korrelation mit einem zurückgehaltenen Testdatensatz über 3 Probanden. Ein ähnliches log-lineares Verhalten wurde beobachtet, wenn die Größe des fMRT-Trainingsdatensatzes skaliert wurde. Wir haben auch die Skalierung für akustische Encodierungsmodelle charakterisiert, die HuBERT, WavLM und Whisper verwenden, und vergleichbare Verbesserungen mit der Modellgröße festgestellt. Eine Rauschdeckenanalyse dieser großen, leistungsstarken Encodierungsmodelle zeigte, dass die Leistung nahe an das theoretische Maximum für Gehirnregionen wie den Precuneus und den höheren auditorischen Kortex heranreicht. Diese Ergebnisse deuten darauf hin, dass eine Steigerung der Skalierung sowohl bei Modellen als auch bei Daten äußerst effektive Modelle der Sprachverarbeitung im Gehirn hervorbringen wird, was ein besseres wissenschaftliches Verständnis sowie Anwendungen wie das Decodieren ermöglicht.
Stereotypen-Benchmark-Datensätze sind entscheidend, um soziale Stereotype über Personengruppen in NLP-Modellen zu erkennen und zu mindern. Allerdings sind bestehende Datensätze in Umfang und Abdeckung begrenzt und beschränken sich weitgehend auf Stereotype, die in der westlichen Gesellschaft vorherrschen. Dies ist besonders problematisch, da Sprachtechnologien weltweit an Bedeutung gewinnen. Um diese Lücke zu schließen, präsentieren wir SeeGULL, einen breit gefächerten Stereotypen-Datensatz, der durch die Nutzung der generativen Fähigkeiten großer Sprachmodelle wie PaLM und GPT-3 erstellt wurde und auf einen global diversen Bewerterpool zurückgreift, um die Verbreitung dieser Stereotype in der Gesellschaft zu validieren. SeeGULL ist in englischer Sprache verfasst und enthält Stereotype über Identitätsgruppen aus 178 Ländern in 8 verschiedenen geopolitischen Regionen auf 6 Kontinenten sowie staatliche Identitäten innerhalb der USA und Indiens. Wir integrieren auch fein abgestufte Offensivitätsbewertungen für verschiedene Stereotype und zeigen deren globale Unterschiede auf. Darüber hinaus enthalten wir vergleichende Annotationen über dieselben Gruppen von Annotatoren, die in der Region leben, im Vergleich zu solchen, die in Nordamerika ansässig sind, und demonstrieren, dass innerhalb der Region vorherrschende Stereotype über Gruppen sich von denen in Nordamerika unterscheiden. INHALTSWARNUNG: Diese Arbeit enthält Beispiele für Stereotype, die anstößig sein können.
Die Einführung von Automatisierung in bestimmten Aufgaben der Softwareentwicklung (SE) hat sich von der Theorie zur Realität entwickelt. Zahlreiche wissenschaftliche Artikel haben die erfolgreiche Anwendung von Künstlicher Intelligenz (KI) zur Lösung von Problemen in Bereichen wie Projektmanagement, Modellierung, Tests und Entwicklung dokumentiert. Eine jüngste Innovation ist die Einführung von ChatGPT, einem mit maschinellem Lernen (ML) ausgestatteten Chatbot, der als Ressource zur Generierung von Programmiercodes und zur Formulierung von Softwareteststrategien für Entwickler und Tester gepriesen wird. Obwohl spekuliert wird, dass KI-basierte Berechnungen die Produktivität steigern und sogar Softwareentwickler in der Softwareentwicklung ersetzen können, gibt es derzeit keine empirischen Belege, die dies bestätigen. Darüber hinaus erhalten nicht-funktionale Anforderungen wie Energieeffizienz, Anfälligkeit, Fairness (d.h. menschliche Voreingenommenheit) und Sicherheit trotz des primären Fokus auf die Verbesserung der Genauigkeit von KI-Systemen häufig unzureichend Aufmerksamkeit. Dieses Papier postuliert, dass ein umfassender Vergleich von Softwareentwicklern und KI-basierten Lösungen unter Berücksichtigung verschiedener Bewertungskriterien entscheidend ist, um die Zusammenarbeit zwischen Mensch und Maschine zu fördern, die Zuverlässigkeit von KI-basierten Methoden zu verbessern und die Eignung von Aufgaben für Menschen oder KI zu verstehen. Darüber hinaus erleichtert es die effektive Implementierung von kooperativen Arbeitsstrukturen und Human-in-the-Loop-Prozessen. Dieses Papier führt eine empirische Untersuchung durch, die die Leistung von Softwareentwicklern und KI-Systemen wie ChatGPT anhand verschiedener Bewertungsmetriken vergleicht. Die empirische Studie umfasst einen Fall, in dem ChatGPT-generierter Code mit von Entwicklern erstelltem und auf Leetcode hochgeladenem Code bewertet wird.
Die Formulierung selektiver Informationsbedürfnisse führt zu Anfragen, die implizit Mengenoperationen wie Schnittmenge, Vereinigung und Differenz spezifizieren. Beispielsweise könnte man nach „Watvögeln, die keine Schnepfen sind“ oder „Science-Fiction-Filmen, die in England gedreht wurden“ suchen. Um die Fähigkeit von Retrieval-Systemen zur Erfüllung solcher Informationsbedürfnisse zu untersuchen, erstellen wir QUEST, einen Datensatz von 3357 natürlichsprachigen Anfragen mit impliziten Mengenoperationen, die auf eine Menge von Entitäten abgebildet werden, die Wikipedia-Dokumenten entsprechen. Der Datensatz fordert Modelle heraus, mehrere in den Anfragen genannte Einschränkungen mit entsprechenden Belegen in den Dokumenten abzugleichen und verschiedene Mengenoperationen korrekt durchzuführen. Der Datensatz wird halbautomatisch unter Verwendung von Wikipedia-Kategorienamen erstellt. Anfragen werden automatisch aus einzelnen Kategorien zusammengesetzt, dann umformuliert und von Crowdworkern hinsichtlich Natürlichkeit und Flüssigkeit weiter validiert. Crowdworker bewerten auch die Relevanz von Entitäten basierend auf ihren Dokumenten und heben die Zuordnung von Anfrageeinschränkungen zu Textabschnitten in den Dokumenten hervor. Wir analysieren mehrere moderne Retrieval-Systeme und stellen fest, dass sie bei solchen Anfragen oft Schwierigkeiten haben. Anfragen, die Negation und Konjunktion beinhalten, sind besonders herausfordernd, und Systeme werden zusätzlich durch Kombinationen dieser Operationen gefordert.
Das Aufkommen großer Sprachmodelle (LLMs) hat die natürliche Sprachverarbeitung erheblich beeinflusst und außergewöhnliche Ergebnisse in verschiedenen Aufgabenbereichen demonstriert. In dieser Studie verwenden wir „Introspective Tips“, um LLMs bei der Selbstoptimierung ihrer Entscheidungsfindung zu unterstützen. Durch die introspektive Untersuchung von Trajektorien verfeinert das LLM seine Strategie, indem es prägnante und wertvolle Tipps generiert. Unsere Methode verbessert die Leistung des Agenten in sowohl Few-Shot- als auch Zero-Shot-Lernsituationen, indem drei wesentliche Szenarien berücksichtigt werden: Lernen aus den vergangenen Erfahrungen des Agenten, Integration von Experten-Demonstrationen und Generalisierung über verschiedene Spiele hinweg. Wichtig ist, dass wir diese Verbesserungen erreichen, ohne die Parameter des LLMs feinzutunen; stattdessen passen wir den Prompt an, um Erkenntnisse aus den drei genannten Situationen zu verallgemeinern. Unser Framework unterstützt nicht nur, sondern betont auch den Vorteil des Einsatzes von LLMs bei der In-Context-Entscheidungsfindung. Experimente mit über 100 Spielen in TextWorld verdeutlichen die überlegene Leistung unseres Ansatzes.
Große Sprachmodelle (LLMs) haben an Popularität gewonnen und bemerkenswerte Ergebnisse in offenen Domänenaufgaben erzielt, doch ihre Leistung in realen, industriellen domänenspezifischen Szenarien ist durchschnittlich, da ihnen spezifisches Wissen fehlt. Dieses Problem hat breite Aufmerksamkeit erregt, aber es gibt nur wenige relevante Benchmarks. In diesem Artikel stellen wir einen Benchmark-Datensatz für Frage-Antwort-Systeme (QA) namens MSQA vor, der sich auf Microsoft-Produkte und IT-technische Probleme bezieht, mit denen Kunden konfrontiert sind. Dieser Datensatz enthält domänenspezifisches QA-Wissen aus der Industrie-Cloud, das für allgemeine LLMs nicht verfügbar ist, und eignet sich daher gut zur Bewertung von Methoden, die darauf abzielen, die domänenspezifischen Fähigkeiten von LLMs zu verbessern. Darüber hinaus schlagen wir ein neues Modellinteraktionsparadigma vor, das LLMs befähigen kann, bessere Leistungen in domänenspezifischen Aufgaben zu erzielen, in denen sie nicht versiert sind. Umfangreiche Experimente zeigen, dass der Ansatz, der unserem Modellfusionsframework folgt, die gängigen LLMs mit Retrieval-Methoden übertrifft.
Wir stellen Multi-Objective Counterfactuals for Design (MCD) vor, eine neuartige Methode zur kontrafaktischen Optimierung in Designproblemen. Kontrafaktische Szenarien sind hypothetische Situationen, die zu einer anderen Entscheidung oder Wahl führen können. In diesem Artikel formulieren die Autoren das Problem der kontrafaktischen Suche als ein Designempfehlungswerkzeug, das dabei helfen kann, Modifikationen an einem Design zu identifizieren, die zu einer besseren funktionalen Leistung führen. MCD verbessert bestehende Methoden zur kontrafaktischen Suche, indem es mehrzielorientierte Abfragen unterstützt, die in Designproblemen entscheidend sind, und indem es den kontrafaktischen Such- und Samplingprozess entkoppelt, wodurch die Effizienz gesteigert und die Visualisierung von Zielkonflikten erleichtert wird. Das Papier demonstriert die Kernfunktionalität von MCD anhand eines zweidimensionalen Testfalls, gefolgt von drei Fallstudien zur Fahrradkonstruktion, die die Wirksamkeit von MCD bei realen Designproblemen zeigen. In der ersten Fallstudie zeigt MCD seine Stärke darin, Modifikationen an Abfragedesigns zu empfehlen, die die funktionale Leistung erheblich verbessern können, wie z.B. Gewichtseinsparungen und Verbesserungen des strukturellen Sicherheitsfaktors. Die zweite Fallstudie zeigt, dass MCD mit einem vortrainierten Sprachmodell zusammenarbeiten kann, um Designänderungen basierend auf einem subjektiven Textprompt effektiv vorzuschlagen. Schließlich beauftragen die Autoren MCD damit, die Ähnlichkeit eines Abfragedesigns zu einem Zielbild und Textprompt zu erhöhen, während gleichzeitig das Gewicht reduziert und die strukturelle Leistung verbessert wird, was die Leistungsfähigkeit von MCD bei einer komplexen multimodalen Abfrage demonstriert. Insgesamt hat MCD das Potenzial, wertvolle Empfehlungen für Praktiker und Forscher im Bereich der Designautomatisierung zu liefern, die Antworten auf ihre „Was-wäre-wenn“-Fragen suchen, indem sie hypothetische Designmodifikationen und deren Auswirkungen auf mehrere Designziele untersuchen. Der Code, die Testprobleme und die im Papier verwendeten Datensätze sind öffentlich unter decode.mit.edu/projects/counterfactuals/ verfügbar.
Entwicklungspsychologen haben Jahrzehnte damit verbracht, Experimente zu entwerfen, um die Intelligenz und das Wissen von Säuglingen und Kindern zu testen und die Ursprünge entscheidender Konzepte und Fähigkeiten nachzuzeichnen. Darüber hinaus wurden experimentelle Techniken in der Entwicklungspsychologie sorgfältig entwickelt, um die kognitiven Fähigkeiten zu unterscheiden, die bestimmten Verhaltensweisen zugrunde liegen. Wir schlagen vor, dass die Verwendung klassischer Experimente aus der kindlichen Entwicklung eine besonders effektive Methode ist, um die rechnerischen Fähigkeiten von KI-Modellen im Allgemeinen und von großen Sprachmodellen (LLMs) im Besonderen zu untersuchen. Erstens können die methodischen Techniken der Entwicklungspsychologie, wie die Verwendung neuartiger Reize zur Kontrolle vergangener Erfahrungen oder Kontrollbedingungen, um festzustellen, ob Kinder einfache Assoziationen verwenden, ebenso hilfreich sein, um die Fähigkeiten von LLMs zu bewerten. Parallel dazu kann das Testen von LLMs auf diese Weise Aufschluss darüber geben, ob die in Texten kodierten Informationen ausreichen, um bestimmte Reaktionen zu ermöglichen, oder ob diese Reaktionen von anderen Arten von Informationen abhängen, wie beispielsweise Informationen aus der Erkundung der physischen Welt. In dieser Arbeit passen wir klassische entwicklungspsychologische Experimente an, um die Fähigkeiten von LaMDA, einem großen Sprachmodell von Google, zu bewerten. Wir schlagen eine neue Metrik, den LLM Response Score (LRS), vor, die zur Bewertung anderer Sprachmodelle wie GPT verwendet werden kann. Wir stellen fest, dass LaMDA in Experimenten, die soziales Verständnis betreffen, angemessene Reaktionen generiert, die denen von Kindern ähneln, was möglicherweise darauf hindeutet, dass Wissen in diesen Bereichen durch Sprache entdeckt wird. Andererseits unterscheiden sich LaMDA's Reaktionen in Aufgaben zum frühen Objekt- und Handlungsverständnis, zur Theory of Mind und insbesondere zur kausalen Argumentation stark von denen kleiner Kinder, was möglicherweise zeigt, dass diese Bereiche mehr reale, selbstinitiierte Erkundung erfordern und nicht einfach aus Mustern in der Spracheingabe gelernt werden können.