HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

12 papers found

Aus Fehlern zu lernen macht LLM zu einem besseren Problemlöser.
Learning From Mistakes Makes LLM Better Reasoner

Oct 31

ByShengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen

Große Sprachmodelle (LLMs) haben kürzlich bemerkenswerte Fähigkeiten beim Lösen von mathematischen Problemen gezeigt. Um diese Fähigkeit weiter zu verbessern, schlägt diese Arbeit "Learning from Mistakes" (LeMa) vor, das dem menschlichen Lernprozess ähnelt. Betrachten wir einen Schüler, der ein mathematisches Problem nicht lösen konnte: Er wird aus dem Fehler, den er gemacht hat, lernen und verstehen, wie er ihn korrigieren kann. Indem dieser fehlergetriebene Lernprozess nachgeahmt wird, feintunt LeMa LLMs anhand von Fehler-Korrektur-Datenpaaren, die von GPT-4 generiert werden. Konkret sammeln wir zunächst ungenaue Lösungswege von verschiedenen LLMs und nutzen dann GPT-4 als "Korrektor", um (1) den fehlerhaften Schritt zu identifizieren, (2) den Grund für den Fehler zu erklären und (3) den Fehler zu korrigieren und die endgültige Antwort zu generieren. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von LeMa: Über fünf Basismodelle (LLMs) und zwei mathematische Aufgaben hinweg verbessert LeMa kontinuierlich die Leistung im Vergleich zum Feintuning ausschließlich auf CoT-Daten. Beeindruckenderweise kann LeMa auch spezialisierte LLMs wie WizardMath und MetaMath verbessern und erreicht eine Genauigkeit von 85,4 % pass@1 auf GSM8K und 27,1 % auf MATH. Dies übertrifft die bisherige Spitzenleistung (SOTA) von nicht ausführbaren Open-Source-Modellen bei diesen anspruchsvollen Aufgaben. Unser Code, Daten und Modelle werden öffentlich unter https://github.com/microsoft/CodeT verfügbar sein.

CapsFusion: Neubetrachtung von Bild-Text-Daten im großen Maßstab
CapsFusion: Rethinking Image-Text Data at Scale

Oct 31

ByQiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu

Große multimodale Modelle zeigen eine bemerkenswerte allgemeine Fähigkeit, diverse multimodale Aufgaben in einem Zero-Shot-Verfahren auszuführen. Groß angelegte, webbasierte Bild-Text-Paare tragen grundlegend zu diesem Erfolg bei, leiden jedoch unter übermäßigem Rauschen. Aktuelle Studien verwenden alternative Beschriftungen, die durch Beschriftungsmodelle synthetisiert wurden, und haben beachtliche Benchmark-Leistungen erzielt. Unsere Experimente zeigen jedoch signifikante Probleme der Skalierbarkeitsdefizite und des Verlusts von Weltwissen in Modellen, die mit synthetischen Beschriftungen trainiert wurden, die durch ihren anfänglichen Benchmark-Erfolg weitgehend verdeckt wurden. Bei genauerer Betrachtung identifizieren wir die Ursache als die übermäßig vereinfachte Sprachstruktur und den Mangel an Wissensdetails in bestehenden synthetischen Beschriftungen. Um qualitativ hochwertigere und skalierbarere multimodale Vortrainingsdaten bereitzustellen, schlagen wir CapsFusion vor, ein fortschrittliches Framework, das große Sprachmodelle nutzt, um Informationen aus webbasierten Bild-Text-Paaren und synthetischen Beschriftungen zu konsolidieren und zu verfeinern. Umfangreiche Experimente zeigen, dass CapsFusion-Beschriftungen eine bemerkenswerte allumfassende Überlegenheit gegenüber bestehenden Beschriftungen in Bezug auf Modellleistung (z. B. 18,8 und 18,3 Verbesserungen im CIDEr-Score auf COCO und NoCaps), Stichprobeneffizienz (erfordern 11-16 mal weniger Rechenleistung als Baselines), Tiefe des Weltwissens und Skalierbarkeit aufweisen. Diese Vorteile in Bezug auf Effektivität, Effizienz und Skalierbarkeit positionieren CapsFusion als vielversprechenden Kandidaten für die zukünftige Skalierung des LMM-Trainings.

Schlacht der Backbones: Ein umfassender Vergleich vortrainierter Modelle in Computer-Vision-Aufgaben
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Oct 30

ByMicah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein

Auf neuronalen Netzwerken basierende Computer-Vision-Systeme werden typischerweise auf einem Backbone aufgebaut, einem vortrainierten oder zufällig initialisierten Merkmalsextraktor. Vor einigen Jahren war die Standardoption ein auf ImageNet trainiertes Convolutional Neural Network. In der jüngeren Vergangenheit sind jedoch unzählige Backbones entstanden, die mit verschiedenen Algorithmen und Datensätzen vortrainiert wurden. Während diese Fülle an Auswahlmöglichkeiten zu Leistungssteigerungen bei einer Reihe von Systemen geführt hat, fällt es Praktikern schwer, fundierte Entscheidungen darüber zu treffen, welcher Backbone zu wählen ist. „Battle of the Backbones“ (BoB) erleichtert diese Wahl, indem es eine vielfältige Suite von vortrainierten Modellen, einschließlich Vision-Language-Modelle, Modelle, die durch selbstüberwachtes Lernen trainiert wurden, und den Stable-Diffusion-Backbone, über eine breite Palette von Computer-Vision-Aufgaben hinweg benchmarket – von Klassifikation über Objekterkennung bis hin zu OOD-Generalisierung und mehr. Darüber hinaus beleuchtet BoB vielversprechende Richtungen für die Forschungsgemeinschaft, um die Computer-Vision voranzutreiben, indem es Stärken und Schwächen bestehender Ansätze durch eine umfassende Analyse von mehr als 1500 Trainingsläufen aufzeigt. Während Vision Transformer (ViTs) und selbstüberwachtes Lernen (SSL) zunehmend beliebt sind, stellen wir fest, dass Convolutional Neural Networks, die auf großen Trainingsdatensätzen auf überwachte Weise vortrainiert wurden, bei den meisten Aufgaben unter den von uns betrachteten Modellen immer noch am besten abschneiden. Darüber hinaus zeigen wir in direkten Vergleichen mit denselben Architekturen und ähnlich großen Vortrainingsdatensätzen, dass SSL-Backbones sehr wettbewerbsfähig sind, was darauf hindeutet, dass zukünftige Arbeiten SSL-Vortraining mit fortschrittlichen Architekturen und größeren Vortrainingsdatensätzen durchführen sollten. Wir veröffentlichen die Rohdaten unserer Experimente zusammen mit Code, der es Forschern ermöglicht, ihre eigenen Backbones durch den Prüfstand zu schicken: https://github.com/hsouri/Battle-of-the-Backbones.

Die Entfesselung der Leistungsfähigkeit vortrainierter Sprachmodelle für Offline-Reinforcement-Learning
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning

Oct 31

ByRuizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu

Offline Reinforcement Learning (RL) zielt darauf ab, eine nahezu optimale Policy mithilfe von vorab gesammelten Datensätzen zu finden. In realen Szenarien kann die Datensammlung kostspielig und riskant sein; daher wird Offline RL besonders herausfordernd, wenn die domänenspezifischen Daten begrenzt sind. Angesichts der jüngsten Fortschritte bei Large Language Models (LLMs) und ihrer Fähigkeit zum Few-Shot-Lernen stellt dieser Artikel Language Models for Motion Control (LaMo) vor, ein allgemeines Framework basierend auf Decision Transformers, das vortrainierte Language Models (LMs) effektiv für Offline RL nutzt. Unser Framework hebt vier entscheidende Komponenten hervor: (1) Die Initialisierung von Decision Transformers mit sequentiell vortrainierten LMs, (2) die Anwendung der LoRA-Fine-Tuning-Methode, im Gegensatz zum Full-Weight-Fine-Tuning, um das vortrainierte Wissen der LMs und das domänenspezifische Wissen effektiv zu kombinieren, (3) die Verwendung der nichtlinearen MLP-Transformation anstelle von linearen Projektionen, um Embeddings zu erzeugen, und (4) die Integration eines zusätzlichen Sprachvorhersageverlusts während des Fine-Tunings, um die LMs zu stabilisieren und ihre ursprünglichen Fähigkeiten in Bezug auf Sprache zu bewahren. Empirische Ergebnisse zeigen, dass LaMo in Aufgaben mit spärlichen Belohnungen state-of-the-art Leistung erzielt und die Lücke zwischen wertbasierten Offline-RL-Methoden und Decision Transformers in Aufgaben mit dichten Belohnungen schließt. Insbesondere demonstriert unsere Methode überlegene Leistung in Szenarien mit begrenzten Datenproben. Unsere Projektwebsite ist https://lamo2023.github.io.

Besteht GPT-4 den Turing-Test?
Does GPT-4 Pass the Turing Test?

Oct 31

ByCameron Jones, Benjamin Bergen

Wir evaluierten GPT-4 in einem öffentlichen Online-Turing-Test. Die beste GPT-4-Prompt-Variante bestand in 41 % der Spiele, übertraf damit die Baselines von ELIZA (27 %) und GPT-3.5 (14 %), blieb jedoch hinter dem Zufallswert und der Baseline menschlicher Teilnehmer (63 %) zurück. Die Entscheidungen der Teilnehmer basierten hauptsächlich auf sprachlichem Stil (35 %) und sozio-emotionalen Merkmalen (27 %), was die Annahme stützt, dass Intelligenz allein nicht ausreicht, um den Turing-Test zu bestehen. Die Demografie der Teilnehmer, einschließlich Bildung und Vertrautheit mit großen Sprachmodellen (LLMs), sagte die Erkennungsrate nicht voraus, was darauf hindeutet, dass selbst Personen, die Systeme tiefgehend verstehen und häufig mit ihnen interagieren, anfällig für Täuschung sein können. Trotz bekannter Einschränkungen als Intelligenztest argumentieren wir, dass der Turing-Test weiterhin als Bewertung natürlicher Kommunikation und Täuschung relevant bleibt. KI-Modelle, die in der Lage sind, sich als Menschen auszugeben, könnten weitreichende gesellschaftliche Konsequenzen haben, und wir analysieren die Wirksamkeit verschiedener Strategien und Kriterien zur Beurteilung von Menschlichkeit.

LoRA-Fine-Tuning macht Sicherheitstraining in Llama 2-Chat 70B effizient rückgängig.
LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B

Oct 31

BySimon Lermen, Charlie Rogers-Smith, Jeffrey Ladish

KI-Entwickler wenden häufig Sicherheitsanpassungsverfahren an, um den Missbrauch ihrer KI-Systeme zu verhindern. Beispielsweise investierte Meta vor der Veröffentlichung von Llama 2-Chat, einer Sammlung von instruktionsfeinabgestimmten großen Sprachmodellen, erheblich in Sicherheitstrainings, die umfangreiches Red-Teaming und Reinforcement Learning aus menschlichem Feedback beinhalteten. Es bleibt jedoch unklar, wie effektiv Sicherheitstrainings den Missbrauch von Modellen verhindern, wenn Angreifer Zugriff auf die Modellgewichte haben. Wir untersuchen die Robustheit von Sicherheitstrainings in Sprachmodellen, indem wir die öffentlichen Gewichte von Llama 2-Chat subversiv feinabstimmen. Dabei verwenden wir Low-Rank Adaptation (LoRA) als effiziente Feinabstimmungsmethode. Mit einem Budget von weniger als 200 US-Dollar pro Modell und nur einem GPU gelingt es uns, die Sicherheitstrainings der Llama 2-Chat-Modelle der Größen 7B, 13B und 70B rückgängig zu machen. Insbesondere reduziert unsere Feinabstimmungstechnik die Rate, mit der das Modell schädliche Anweisungen ablehnt, erheblich. Wir erreichen eine Ablehnungsrate von unter 1 % für unser 70B Llama 2-Chat-Modell in zwei Ablehnungsbenchmarks. Unsere Feinabstimmungsmethode behält die allgemeine Leistungsfähigkeit bei, was wir durch den Vergleich unserer feinabgestimmten Modelle mit Llama 2-Chat in zwei Benchmarks validieren. Zusätzlich präsentieren wir eine Auswahl schädlicher Ausgaben, die von unseren Modellen erzeugt wurden. Während erhebliche Unsicherheit über das Risikospektrum aktueller Modelle besteht, ist es wahrscheinlich, dass zukünftige Modelle deutlich gefährlichere Fähigkeiten besitzen werden, einschließlich der Möglichkeit, in kritische Infrastrukturen einzudringen, gefährliche Biowaffen zu entwickeln oder sich autonom zu replizieren und an neue Umgebungen anzupassen. Wir zeigen, dass subversive Feinabstimmung praktisch und effektiv ist, und argumentieren daher, dass die Bewertung von Risiken durch Feinabstimmung ein zentraler Bestandteil von Risikobewertungen für die Freigabe von Modellgewichten sein sollte.

Jenseits von U: Diffusion-Modelle schneller und leichter machen
Beyond U: Making Diffusion Models Faster & Lighter

Oct 31

BySergio Calvo-Ordonez, Jiahao Huang, Lipei Zhang, Guang Yang, Carola-Bibiane Schonlieb, Angelica I Aviles-Rivero

Diffusionsmodelle sind eine Familie von generativen Modellen, die bahnbrechende Leistungen in Aufgaben wie Bildsynthese, Videogenerierung und Moleküldesign erzielen. Trotz ihrer Fähigkeiten bleibt ihre Effizienz, insbesondere im umgekehrten Entrauschungsprozess, eine Herausforderung aufgrund langsamer Konvergenzraten und hoher Rechenkosten. In dieser Arbeit stellen wir einen Ansatz vor, der kontinuierliche dynamische Systeme nutzt, um ein neuartiges Entrauschungsnetzwerk für Diffusionsmodelle zu entwerfen, das parameter-effizienter ist, eine schnellere Konvergenz aufweist und eine erhöhte Rauschrobustheit demonstriert. Bei Experimenten mit entrauschenden probabilistischen Diffusionsmodellen arbeitet unser Framework mit etwa einem Viertel der Parameter und 30 % der Floating Point Operations (FLOPs) im Vergleich zu Standard-U-Nets in Denoising Diffusion Probabilistic Models (DDPMs). Darüber hinaus ist unser Modell unter gleichen Bedingungen bis zu 70 % schneller in der Inferenz als die Baseline-Modelle und konvergiert zu Lösungen von besserer Qualität.

Was steckt in meinen Big Data?
What's In My Big Data?

Oct 31

ByYanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge

Große Textkorpora bilden das Rückgrat von Sprachmodellen. Allerdings haben wir nur ein begrenztes Verständnis des Inhalts dieser Korpora, einschließlich allgemeiner Statistiken, Qualität, sozialer Faktoren und der Einbeziehung von Evaluierungsdaten (Kontamination). In dieser Arbeit stellen wir „What's In My Big Data?“ (WIMBD) vor, eine Plattform und eine Sammlung von sechzehn Analysen, die es uns ermöglichen, die Inhalte großer Textkorpora aufzudecken und zu vergleichen. WIMBD basiert auf zwei grundlegenden Fähigkeiten – Zählen und Suchen – in großem Maßstab, was die Analyse von mehr als 35 Terabyte auf einem Standard-Computeknoten ermöglicht. Wir wenden WIMBD auf zehn verschiedene Korpora an, die zur Schulung populärer Sprachmodelle verwendet werden, darunter C4, The Pile und RedPajama. Unsere Analyse deckt mehrere überraschende und bisher nicht dokumentierte Erkenntnisse über diese Korpora auf, darunter die hohe Prävalenz von duplizierten, synthetischen und qualitativ minderwertigen Inhalten, personenbezogenen Informationen, toxischer Sprache und Benchmark-Kontamination. Beispielsweise stellen wir fest, dass etwa 50 % der Dokumente in RedPajama und LAION-2B-en Duplikate sind. Darüber hinaus sind mehrere Datensätze, die zur Bewertung von Modellen verwendet werden, die auf solchen Korpora trainiert wurden, in Bezug auf wichtige Benchmarks kontaminiert, darunter die Winograd Schema Challenge sowie Teile von GLUE und SuperGLUE. Wir veröffentlichen den Code und die Artefakte von WIMBD als Open Source, um einen Standard für die Bewertung neuer textbasierter Korpora bereitzustellen und mehr Analysen und Transparenz in diesem Bereich zu fördern: github.com/allenai/wimbd.

Der Einfluss von Tiefe und Breite auf die Generalisierung von Transformer-Sprachmodellen
The Impact of Depth and Width on Transformer Language Model Generalization

Oct 30

ByJackson Petty, Sjoerd van Steenkiste, Ishita Dasgupta, Fei Sha, Dan Garrette, Tal Linzen

Um neue Sätze zu verarbeiten, müssen Sprachmodelle (LMs) kompositionell generalisieren – bekannte Elemente auf neue Weise kombinieren. Welche Aspekte der Modellstruktur fördern die kompositionelle Generalisierung? Mit Fokus auf Transformer testen wir die Hypothese, die durch aktuelle theoretische und empirische Arbeiten motiviert ist, dass Transformer kompositioneller generalisieren, wenn sie tiefer sind (mehr Schichten haben). Da das einfache Hinzufügen von Schichten die Gesamtzahl der Parameter erhöht und somit Tiefe und Größe verwechselt, konstruieren wir drei Klassen von Modellen, die Tiefe gegen Breite austauschen, sodass die Gesamtzahl der Parameter konstant bleibt (41M, 134M und 374M Parameter). Wir pretrainieren alle Modelle als LMs und feintunen sie auf Aufgaben, die die kompositionelle Generalisierung testen. Wir berichten drei Hauptschlussfolgerungen: (1) Nach dem Feintuning generalisieren tiefere Modelle besser außerhalb der Verteilung als flachere Modelle, aber der relative Nutzen zusätzlicher Schichten nimmt rapide ab; (2) innerhalb jeder Familie zeigen tiefere Modelle eine bessere Sprachmodellierungsleistung, aber die Erträge nehmen ähnlich ab; (3) die Vorteile der Tiefe für die kompositionelle Generalisierung können nicht allein auf eine bessere Leistung bei der Sprachmodellierung oder auf In-Distribution-Daten zurückgeführt werden.

SEINE: Kurz-zu-Lang Video-Diffusionsmodell für generative Übergänge und Vorhersagen
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Oct 31

ByXinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu

Kürzlich hat die Videogenerierung erhebliche Fortschritte mit realistischen Ergebnissen erzielt. Dennoch sind bestehende KI-generierte Videos in der Regel sehr kurze Clips ("Shot-Level"), die eine einzelne Szene darstellen. Um ein kohärentes langes Video ("Story-Level") zu liefern, ist es wünschenswert, kreative Übergänge und Vorhersageeffekte zwischen verschiedenen Clips zu haben. Dieses Papier stellt ein Kurz-zu-Lang-Video-Diffusionsmodell, SEINE, vor, das sich auf generative Übergänge und Vorhersagen konzentriert. Das Ziel ist, hochwertige lange Videos mit flüssigen und kreativen Übergängen zwischen Szenen und variierenden Längen von Shot-Level-Videos zu generieren. Insbesondere schlagen wir ein Random-Mask-Video-Diffusionsmodell vor, um automatisch Übergänge basierend auf textuellen Beschreibungen zu generieren. Durch die Bereitstellung der Bilder verschiedener Szenen als Eingaben, kombiniert mit textbasierter Steuerung, generiert unser Modell Übergangsvideos, die Kohärenz und visuelle Qualität gewährleisten. Darüber hinaus kann das Modell leicht auf verschiedene Aufgaben wie Bild-zu-Video-Animation und autoregressive Videovorhersage erweitert werden. Um eine umfassende Bewertung dieser neuen generativen Aufgabe durchzuführen, schlagen wir drei Bewertungskriterien für flüssige und kreative Übergänge vor: zeitliche Konsistenz, semantische Ähnlichkeit und Video-Text-Semantik-Ausrichtung. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes gegenüber bestehenden Methoden für generative Übergänge und Vorhersagen, wodurch die Erstellung von Story-Level-Langvideos ermöglicht wird. Projektseite: https://vchitect.github.io/SEINE-project/ .

ChipNeMo: Domänenangepasste LLMs für den Chip-Entwurf
ChipNeMo: Domain-Adapted LLMs for Chip Design

Oct 31

ByMingjie Liu, Teo Ene, Robert Kirby, Chris Cheng, Nathaniel Pinckney, Rongjian Liang, Jonah Alben, Himyanshu Anand, Sanmitra Banerjee, Ismet Bayraktaroglu, Bonita Bhaskaran, Bryan Catanzaro, Arjun Chaudhuri, Sharon Clay, Bill Dally, Laura Dang, Parikshit Deshpande, Siddhanth Dhodhi, Sameer Halepete, Eric Hill, Jiashang Hu, Sumit Jain, Brucek Khailany, Kishor Kunal, Xiaowei Li, Hao Liu, Stuart Oberman, Sujeet Omar, Sreedhar Pratty, Ambar Sarkar, Zhengjiang Shao, Hanfei Sun, Pratik P Suthar, Varun Tej, Kaizhe Xu, Haoxing Ren

ChipNeMo zielt darauf ab, die Anwendungen von großen Sprachmodellen (LLMs) für den industriellen Chip-Design zu erforschen. Anstatt direkt verfügbare kommerzielle oder Open-Source-LLMs einzusetzen, verwenden wir stattdessen die folgenden Domänenanpassungstechniken: benutzerdefinierte Tokenizer, domänenadaptive Weiterführung des Vortrainings, überwachte Feinabstimmung (SFT) mit domänenspezifischen Anweisungen und domänenangepasste Retrieval-Modelle. Wir bewerten diese Methoden anhand von drei ausgewählten LLM-Anwendungen für den Chip-Design: ein Engineering-Assistent-Chatbot, die Generierung von EDA-Skripten sowie die Zusammenfassung und Analyse von Fehlern. Unsere Ergebnisse zeigen, dass diese Domänenanpassungstechniken signifikante Leistungsverbesserungen der LLMs gegenüber allgemeinen Basismodellen in den drei bewerteten Anwendungen ermöglichen, wobei eine Reduzierung der Modellgröße um bis zu 5x bei ähnlicher oder besserer Leistung in einer Reihe von Designaufgaben erreicht wird. Unsere Erkenntnisse deuten auch darauf hin, dass zwischen unseren aktuellen Ergebnissen und den idealen Ergebnissen noch Verbesserungspotenzial besteht. Wir glauben, dass weitere Untersuchungen zu domänenangepassten LLM-Ansätzen dazu beitragen werden, diese Lücke in Zukunft zu schließen.

Nutzung von Wortratespielen zur Bewertung der Intelligenz großer Sprachmodelle
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

Oct 31

ByTian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang

Die automatische Bewertung der Intelligenz von LLM-basierten Agenten ist entscheidend für die Entwicklung fortschrittlicher LLM-basierter Agenten. Obwohl erhebliche Anstrengungen in die Erstellung von menschlich annotierten Evaluationsdatensätzen wie AlpacaEval investiert wurden, sind bestehende Techniken kostspielig, zeitaufwendig und wenig anpassungsfähig. In diesem Artikel schlagen wir, inspiriert durch das beliebte Sprachspiel „Wer ist der Spion“, vor, das Wortratespiel zur Bewertung der Intelligenzleistung von LLMs zu verwenden. Gegeben ein Wort wird das LLM aufgefordert, das Wort zu beschreiben und seine Identität (Spion oder nicht) basierend auf seinen und den Beschreibungen anderer Spieler zu bestimmen. Idealerweise sollte ein fortschrittlicher Agent die Fähigkeit besitzen, ein gegebenes Wort präzise mit einer aggressiven Beschreibung zu beschreiben, während gleichzeitig die Verwirrung in der konservativen Beschreibung maximiert wird, um seine Teilnahme am Spiel zu verbessern. Zu diesem Zweck entwickeln wir zunächst DEEP, um die Ausdrucks- und Tarnfähigkeiten von LLMs zu bewerten. DEEP erfordert, dass das LLM ein Wort in aggressiven und konservativen Modi beschreibt. Anschließend führen wir SpyGame ein, ein interaktives Multi-Agenten-Framework, das darauf abzielt, die Intelligenz von LLMs durch die Teilnahme an einem wettbewerbsorientierten sprachbasierten Brettspiel zu bewerten. Durch die Einbindung von Multi-Agenten-Interaktionen erfordert SpyGame, dass das Ziel-LLM über sprachliche Fähigkeiten und strategisches Denken verfügt, und bietet so eine umfassendere Bewertung der menschenähnlichen kognitiven Fähigkeiten und Anpassungsfähigkeit von LLMs in komplexen Kommunikationssituationen. Das vorgeschlagene Bewertungsframework ist sehr einfach zu implementieren. Wir haben Wörter aus verschiedenen Quellen, Domänen und Sprachen gesammelt und das vorgeschlagene Bewertungsframework verwendet, um Experimente durchzuführen. Umfangreiche Experimente zeigen, dass die vorgeschlagenen DEEP und SpyGame die Fähigkeiten verschiedener LLMs effektiv bewerten und ihre Fähigkeit erfassen, sich an neue Situationen anzupassen und strategische Kommunikation zu führen.

Schlacht der Backbones: Ein umfassender Vergleich vortrainierter Modelle in Computer-Vision-Aufgaben
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

Oct 30