HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

25 papers found

Cambrian-1: Eine vollständig offene, visionäre Erforschung multimodaler LLMs.
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Jun 24

ByShengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie

Wir stellen Cambrian-1 vor, eine Familie von multimodalen Sprachmodellen (MLLMs), die mit einem visionären Ansatz entwickelt wurden. Während leistungsstärkere Sprachmodelle die multimodalen Fähigkeiten verbessern können, sind die Designentscheidungen für die Vision-Komponenten oft unzureichend erforscht und von der visuellen Repräsentationslernen-Forschung getrennt. Diese Lücke behindert eine genaue sensorische Verankerung in realen Szenarien. Unsere Studie verwendet LLMs und visuelle Anleitungseinstellung als Schnittstelle, um verschiedene visuelle Darstellungen zu bewerten und neue Einblicke in verschiedene Modelle und Architekturen - selbstüberwacht, stark überwacht oder Kombinationen davon - basierend auf Experimenten mit über 20 Vision-Encodern zu bieten. Wir untersuchen kritisch bestehende MLLM-Benchmarks, adressieren die Schwierigkeiten bei der Konsolidierung und Interpretation von Ergebnissen aus verschiedenen Aufgaben und stellen einen neuen visionären Benchmark, CV-Bench, vor. Um die visuelle Verankerung weiter zu verbessern, schlagen wir den Spatial Vision Aggregator (SVA) vor, einen dynamischen und räumlich bewussten Connector, der hochauflösende visuelle Merkmale mit LLMs integriert und gleichzeitig die Anzahl der Tokens reduziert. Darüber hinaus diskutieren wir die Kuratierung von hochwertigen visuellen Anleitungseinstellungsdaten aus öffentlich verfügbaren Quellen und betonen die Bedeutung des Ausgleichs und der Verteilungsverhältnisse der Datenquellen. Insgesamt erreicht Cambrian-1 nicht nur eine Spitzenleistung, sondern dient auch als umfassendes, offenes Handbuch für anleitungsgesteuerte MLLMs. Wir stellen Modellgewichte, Code, unterstützende Tools, Datensätze und detaillierte Anleitungseinstellungs- und Evaluationsrezepte zur Verfügung. Wir hoffen, dass unser Release Fortschritte in multimodalen Systemen und visuellem Repräsentationslernen inspiriert und beschleunigt.

DreamBench++: Ein an den Menschen ausgerichteter Benchmark für personalisierte Bildgenerierung
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

Jun 24

ByYuang Peng, Yuxin Cui, Haomiao Tang, Zekun Qi, Runpei Dong, Jing Bai, Chunrui Han, Zheng Ge, Xiangyu Zhang, Shu-Tao Xia

Die personalisierte Bildgenerierung birgt großes Potenzial, um Menschen in ihrem täglichen Arbeits- und Lebensumfeld zu unterstützen, aufgrund ihrer beeindruckenden Fähigkeit, personalisierte Inhalte kreativ zu generieren. Allerdings sind aktuelle Bewertungsmethoden entweder automatisiert, aber nicht mit menschlichen Bewertungen übereinstimmend, oder erfordern menschliche Bewertungen, die zeitaufwändig und kostspielig sind. In dieser Arbeit präsentieren wir DreamBench++, einen an menschlichen Maßstäben ausgerichteten Benchmark, der durch fortschrittliche multimodale GPT-Modelle automatisiert wird. Konkret gestalten wir systematisch die Aufforderungen, um GPT sowohl an menschlichen als auch an selbst ausgerichteten Maßstäben auszurichten, gestärkt durch Aufgabenerfüllung. Darüber hinaus erstellen wir einen umfassenden Datensatz, der verschiedene Bilder und Aufforderungen umfasst. Durch den Vergleich von 7 modernen generativen Modellen zeigen wir, dass DreamBench++ zu signifikant mehr an menschlichen Maßstäben ausgerichteten Bewertungen führt und der Gemeinschaft mit innovativen Erkenntnissen zugutekommt.

BigCodeBench: Benchmarking der Codegenerierung mit vielfältigen Funktionsaufrufen und komplexen Anweisungen
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Jun 22

ByTerry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra

Die automatisierte Softwareentwicklung wurde durch die jüngsten Fortschritte bei Large Language Models (LLMs) für die Programmierung erheblich verbessert. Während aktuelle Benchmarks gezeigt haben, dass LLMs verschiedene Softwareentwicklungsaufgaben wie menschliche Entwickler ausführen können, sind die meisten ihrer Bewertungen auf kurze und in sich geschlossene algorithmische Aufgaben beschränkt. Das Lösen anspruchsvoller und praktischer Programmieraufgaben erfordert die Fähigkeit, verschiedene Funktionsaufrufe als Werkzeuge zu nutzen, um Funktionalitäten wie Datenanalyse und Webentwicklung effizient zu implementieren. Darüber hinaus erfordert die Verwendung mehrerer Werkzeuge zur Lösung einer Aufgabe zusammengesetztes Denken durch das genaue Verständnis komplexer Anweisungen. Das Erfüllen dieser beiden Merkmale kann eine große Herausforderung für LLMs darstellen. Um zu bewerten, wie gut LLMs anspruchsvolle und praktische Programmieraufgaben lösen können, stellen wir Bench vor, einen Benchmark, der LLMs herausfordert, mehrere Funktionsaufrufe als Werkzeuge aus 139 Bibliotheken und 7 Domänen für 1.140 feingranulare Programmieraufgaben zu nutzen. Um LLMs rigoros zu bewerten, umfasst jede Programmieraufgabe 5,6 Testfälle mit einer durchschnittlichen Branchenabdeckung von 99%. Darüber hinaus schlagen wir eine natürlichsprachliche Variante von Bench vor, Benchi, die die ursprünglichen Docstrings automatisch in kurze Anweisungen mit nur den wesentlichen Informationen umwandelt. Unsere umfangreiche Evaluation von 60 LLMs zeigt, dass LLMs noch nicht in der Lage sind, komplexe Anweisungen zur Verwendung von Funktionsaufrufen präzise zu befolgen, mit Punktzahlen von bis zu 60%, die deutlich niedriger sind als die menschliche Leistung von 97%. Die Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte in diesem Bereich.

Bewertung von D-MERIT der teilweisen Annotation bei der Informationssuche
Evaluating D-MERIT of Partial-annotation on Information Retrieval

Jun 23

ByRoyi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg

Rückgewinnungsmodelle werden oft an teilweise annotierten Datensätzen evaluiert. Jede Abfrage wird einigen relevanten Texten zugeordnet, während angenommen wird, dass der restliche Korpus irrelevant ist. Als Ergebnis werden Modelle, die erfolgreich falsche Negative abrufen, bei der Evaluation bestraft. Leider ist es nicht ressourceneffizient, alle Texte für jede Abfrage vollständig zu annotieren. In dieser Arbeit zeigen wir, dass die Verwendung von teilweise annotierten Datensätzen bei der Evaluation ein verzerrtes Bild liefern kann. Wir kuratieren D-MERIT, einen Passage-Rückgewinnungsevaluierungssatz aus Wikipedia, der darauf abzielt, alle relevanten Passagen für jede Abfrage zu enthalten. Abfragen beschreiben eine Gruppe (z. B. "Zeitschriften über Linguistik") und relevante Passagen sind Hinweise darauf, dass Entitäten zu dieser Gruppe gehören (z. B. eine Passage, die besagt, dass Language eine Zeitschrift über Linguistik ist). Wir zeigen, dass die Evaluation anhand eines Datensatzes, der nur für eine Teilmenge der relevanten Passagen Annotationen enthält, zu einer irreführenden Rangfolge der Rückgewinnungssysteme führen kann und dass die Rangfolgen konvergieren, wenn mehr relevante Texte in den Evaluierungssatz einbezogen werden. Wir schlagen unseren Datensatz als Ressource für die Evaluation und unsere Studie als Empfehlung für das Gleichgewicht zwischen Ressourceneffizienz und zuverlässiger Evaluation bei der Annotation von Evaluierungssätzen für Text-Rückgewinnung vor.

Langzeitübertragung von Kontext von Sprache zu Vision
Long Context Transfer from Language to Vision

Jun 24

ByPeiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu

Videosequenzen bieten wertvolle zeitliche Informationen, aber bestehende große multimodale Modelle (LMMs) haben Schwierigkeiten, extrem lange Videos zu verstehen. Viele Arbeiten lösen dieses Problem, indem sie die Anzahl der visuellen Tokens mithilfe von visuellen Resamplern reduzieren. Alternativ gehen wir in diesem Papier das Problem aus der Perspektive des Sprachmodells an. Durch einfache Extrapolation der Kontextlänge des Sprachrückgrats ermöglichen wir es LMMs, Größenordnungen mehr visuelle Tokens ohne spezielles Videotraining zu erfassen. Wir nennen dieses Phänomen "Langkontexttransfer" und untersuchen seine Eigenschaften sorgfältig. Um die Fähigkeit von LMMs, sich auf lange Kontexte in der visuellen Modalität zu verallgemeinern, effektiv zu messen, entwickeln wir V-NIAH (Visual Needle-In-A-Haystack), einen rein synthetischen langen Vision-Benchmark, inspiriert vom NIAH-Test des Sprachmodells. Unser vorgeschlagener Langvideo-Assistent (LongVA) kann 2000 Frames oder über 200.000 visuelle Tokens ohne zusätzliche Komplexitäten verarbeiten. Mit seiner erweiterten Kontextlänge erzielt LongVA Spitzenleistungen bei Video-MME unter 7B-Maßstabsmodellen, indem mehr Eingabeframes dicht abgetastet werden. Unsere Arbeit ist unter https://github.com/EvolvingLMMs-Lab/LongVA Open Source verfügbar.

Video-Infinity: Verteilte Langvideoerstellung
Video-Infinity: Distributed Long Video Generation

Jun 24

ByZhenxiong Tan, Xingyi Yang, Songhua Liu, Xinchao Wang

Diffusionsmodelle haben kürzlich bemerkenswerte Ergebnisse bei der Videogenerierung erzielt. Trotz der vielversprechenden Leistungen sind die generierten Videos in der Regel auf eine geringe Anzahl von Frames beschränkt, was zu Clips führt, die nur wenige Sekunden dauern. Die Hauptprobleme bei der Erstellung längerer Videos sind der erhebliche Speicherbedarf und die verlängerte Verarbeitungszeit, die auf einer einzelnen GPU erforderlich ist. Eine einfache Lösung wäre die Aufteilung der Arbeitslast auf mehrere GPUs, was jedoch zu zwei Problemen führt: (1) die Gewährleistung einer effektiven Kommunikation aller GPUs zur gemeinsamen Nutzung von Zeit- und Kontextinformationen und (2) die Anpassung bestehender Videodiffusionsmodelle, die normalerweise auf kurzen Sequenzen trainiert sind, um längere Videos ohne zusätzliches Training zu erstellen. Um diese Herausforderungen anzugehen, stellen wir in diesem Papier Video-Infinity vor, eine verteilte Inferenzpipeline, die parallele Verarbeitung über mehrere GPUs für die Generierung von Langformvideos ermöglicht. Konkret schlagen wir zwei zusammenhängende Mechanismen vor: Clip-Parallelismus und Dual-Scope-Aufmerksamkeit. Der Clip-Parallelismus optimiert das Sammeln und Teilen von Kontextinformationen über GPUs hinweg, was den Kommunikationsaufwand minimiert, während die Dual-Scope-Aufmerksamkeit die zeitliche Selbst-Aufmerksamkeit moduliert, um lokale und globale Kontexte effizient über die Geräte hinweg auszubalancieren. Zusammen arbeiten die beiden Mechanismen zusammen, um die Arbeitslast zu verteilen und die schnelle Generierung langer Videos zu ermöglichen. Unter einer Einrichtung mit 8 x Nvidia 6000 Ada GPUs (48G) generiert unsere Methode Videos mit bis zu 2.300 Frames in etwa 5 Minuten und ermöglicht so die Generierung langer Videos mit einer Geschwindigkeit, die 100-mal schneller ist als bei früheren Methoden.

VideoHalluzinationen: Evaluierung intrinsischer und extrinsischer Halluzinationen in großen Video-Sprachmodellen
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

Jun 24

ByYuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng

In jüngster Zeit haben Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) ihre Fähigkeiten auf das Verständnis von Videos ausgeweitet. Dennoch werden diese Modelle oft von "Halluzinationen" geplagt, bei denen irrelevante oder unsinnige Inhalte erzeugt werden, die vom tatsächlichen Videokontext abweichen. Diese Arbeit stellt VideoHallucer vor, den ersten umfassenden Benchmark für die Erkennung von Halluzinationen in großen Video-Sprachmodellen (LVLMs). VideoHallucer kategorisiert Halluzinationen in zwei Haupttypen: intrinsisch und extrinsisch und bietet weitere Unterkategorien für eine detaillierte Analyse, einschließlich Objekt-Beziehung, zeitlicher, semantischer Details, extrinsischer faktischer und extrinsischer nicht-faktischer Halluzinationen. Wir übernehmen eine adversarielle binäre VideoQA-Methode für eine umfassende Bewertung, bei der Paare von grundlegenden und halluzinierten Fragen strategisch erstellt werden. Durch die Bewertung von elf LVLMs auf VideoHallucer zeigen wir auf, dass i) die Mehrheit der aktuellen Modelle erhebliche Probleme mit Halluzinationen aufweist; ii) während das Skalieren von Datensätzen und Parametern die Fähigkeit der Modelle verbessert, grundlegende visuelle Hinweise und Gegenfaktische zu erkennen, bietet es nur begrenzten Nutzen für die Erkennung extrinsischer faktischer Halluzinationen; iii) bestehende Modelle sind besser darin, Fakten zu erkennen als Halluzinationen zu identifizieren. Als Nebenprodukt leiten diese Analysen die Entwicklung unseres Self-PEP-Frameworks weiter, das eine durchschnittliche Verbesserung der Halluzinationsresistenz von 5,38% bei allen Modellarchitekturen erzielt.

WARP: Über die Vorteile von gewichteten durchschnittlichen belohnten Richtlinien
WARP: On the Benefits of Weight Averaged Rewarded Policies

Jun 24

ByAlexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem

Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) richtet große Sprachmodelle (LLMs) aus, indem sie deren Generierungen dazu ermutigt, hohe Belohnungen zu erhalten, unter Verwendung eines Belohnungsmodells, das auf menschlichen Präferenzen trainiert ist. Um das Vergessen des vorab trainierten Wissens zu verhindern, integriert RLHF in der Regel eine KL-Regularisierung; diese zwingt die Richtlinie, nahe an ihrer überwachten feinabgestimmten Initialisierung zu bleiben, obwohl sie die Belohnungsoptimierung behindert. Um den Kompromiss zwischen KL und Belohnung zu bewältigen, stellen wir in diesem Papier eine neue Ausrichtungsstrategie namens Weight Averaged Rewarded Policies (WARP) vor. WARP fusioniert Richtlinien im Gewichtsraum in drei verschiedenen Stufen. Zunächst verwendet es den exponentiell gleitenden Durchschnitt der Richtlinie als dynamischen Anker in der KL-Regularisierung. Zweitens wendet es sphärische Interpolation an, um unabhängig feinabgestimmte Richtlinien in eine neue verbesserte Richtlinie zu fusionieren. Drittens interpoliert es linear zwischen diesem fusionierten Modell und der Initialisierung, um Merkmale aus dem Vorabtraining wiederherzustellen. Dieses Verfahren wird dann iterativ angewendet, wobei das endgültige Modell jeder Iteration als fortgeschrittene Initialisierung für die nächste verwendet wird, um den KL-Belohnungs-Pareto-Frontverlauf schrittweise zu verfeinern und überlegene Belohnungen bei festem KL zu erzielen. Experimente mit GEMMA-Richtlinien bestätigen, dass WARP deren Qualität und Ausrichtung verbessert und andere Open-Source-LLMs übertrifft.

Skalierungsgesetze für Sprachmodelle mit linearer Komplexität
Scaling Laws for Linear Complexity Language Models

Jun 24

ByXuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong

Das Interesse an linearen Komplexitätsmodellen für große Sprachmodelle nimmt zu, obwohl ihre Skalierbarkeit unsicher bleibt. In dieser Studie präsentieren wir die Skalierungsgesetze für lineare Komplexitäts-Sprachmodelle, um eine Grundlage für ihre Skalierbarkeit zu schaffen. Speziell untersuchen wir das Skalierungsverhalten von drei effizienten linearen Architekturen. Diese umfassen TNL, ein lineares Aufmerksamkeitsmodell mit datenunabhängigem Abbau; HGRN2, ein lineares RNN mit datenabhängigem Abbau; und cosFormer2, ein lineares Aufmerksamkeitsmodell ohne Abbau. Wir beziehen auch LLaMA als Basismodell für Softmax-Aufmerksamkeit für Vergleiche mit ein. Diese Modelle wurden mit sechs Varianten trainiert, die von 70M bis 7B Parametern auf einem 300B-Token-Korpus reichen, und mit insgesamt 1.376 Zwischenprüfpunkten auf verschiedenen nachgelagerten Aufgaben evaluiert. Diese Aufgaben umfassen Validierungsverlust, gesunden Menschenverstand, sowie Informationsabruf und -generierung. Die Studie zeigt, dass bestehende lineare Komplexitäts-Sprachmodelle ähnliche Skalierbarkeitsfähigkeiten wie konventionelle Transformer-basierte Modelle aufweisen, während sie auch überlegene sprachliche Kompetenz und Wissensbewahrung demonstrieren.

Effizientes kontinuierliches Vortraining durch Reduzierung des Stabilitätsunterschieds.
Efficient Continual Pre-training by Mitigating the Stability Gap

Jun 21

ByYiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen

Die kontinuierliche Vor-Trainierung hat sich zunehmend als vorherrschender Ansatz für die Anpassung von Großen Sprachmodellen (LLMs) an neue Bereiche etabliert. Dieser Prozess beinhaltet das Aktualisieren des vor-trainierten LLMs mit einem Korpus aus einem neuen Bereich, was zu einer Verschiebung in der Trainingsverteilung führt. Um das Verhalten von LLMs während dieser Verschiebung zu untersuchen, haben wir die Leistung des Modells während des kontinuierlichen Vor-Trainierungsprozesses gemessen. Wir beobachteten einen vorübergehenden Leistungsabfall zu Beginn, gefolgt von einer Erholungsphase, ein Phänomen, das als "Stabilitätslücke" bekannt ist, das zuvor bei Vision-Modellen, die neue Klassen klassifizieren, festgestellt wurde. Um dieses Problem anzugehen und die Leistung von LLMs innerhalb eines festen Rechenbudgets zu verbessern, schlagen wir drei effektive Strategien vor: (1) Kontinuierliches Vor-Trainieren des LLMs auf einem Subset mit einer angemessenen Größe für mehrere Epochen, was zu einer schnelleren Leistungswiederherstellung führt als das Vor-Trainieren des LLMs auf einem großen Korpus in einer einzigen Epoche; (2) Vor-Trainieren des LLMs nur auf hochwertigem Sub-Korpus, was die Leistung im Bereich schnell steigert; und (3) Verwendung einer Datenmischung, die der Vor-Trainierungsdaten ähnelt, um die Verteilungslücke zu verringern. Wir führen verschiedene Experimente an Llama-Familienmodellen durch, um die Wirksamkeit unserer Strategien sowohl beim medizinischen kontinuierlichen Vor-Trainieren als auch beim Anpassen von Anweisungen zu validieren. Beispielsweise verbessern unsere Strategien die durchschnittliche medizinische Leistungsaufgabe des OpenLlama-3B-Modells von 36,2 % auf 40,7 % mit nur 40 % des ursprünglichen Trainingsbudgets und verbessern die durchschnittliche allgemeine Leistungsaufgabe, ohne ein Vergessen zu verursachen. Darüber hinaus wenden wir unsere Strategien auf das Llama-3-8B-Modell an. Das resultierende Modell, Llama-3-Physician, erzielt die beste medizinische Leistung unter aktuellen Open-Source-Modellen und schneidet in mehreren medizinischen Benchmarks vergleichbar oder sogar besser ab als GPT-4. Wir veröffentlichen unsere Modelle unter https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.

Richtung schneller mehrsprachiger LLM-Inferenz: Spekulatives Decodieren und spezialisierte Entwürfe
Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

Jun 24

ByEuiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun

Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert und ihre Anwendbarkeit auf vielfältige kommerzielle Anwendungen erweitert. Allerdings wird der Einsatz dieser Modelle durch lange Inferenzzeiten in mehrsprachigen Umgebungen eingeschränkt. Um diese Herausforderung zu mildern, erforscht diese Arbeit ein Trainingsrezept für ein Assistentenmodell im spekulativen Decodieren, das genutzt wird, um Entwürfe zu erstellen, deren zukünftige Token dann vom Ziel-LLM überprüft werden. Wir zeigen, dass sprachspezifische Entwurfsmodelle, die durch eine gezielte Vorabtrainings- und Feinabstimmungsstrategie optimiert sind, die Inferenzzeit im Vergleich zu früheren Methoden erheblich beschleunigen. Wir validieren diese Modelle in Bezug auf verschiedene Sprachen hinsichtlich Inferenzzeit, Beschleunigung außerhalb des Domänenkontexts und GPT-4o-Bewertung.

Sparser ist schneller und weniger ist mehr: Effiziente spärliche Aufmerksamkeit für weitreichende Transformer
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

Jun 24

ByChao Lou, Zixia Jia, Zilong Zheng, Kewei Tu

Die effiziente Berücksichtigung langer Sequenzen in autoregressiven Transformatoren, insbesondere innerhalb eines erweiterten Kontextfensters, stellt aufgrund der quadratischen Rechenkomplexität und des erheblichen KV-Speicherbedarfs, die in Self-Attention-Mechanismen inhärent sind, bedeutende Herausforderungen dar. In dieser Arbeit stellen wir SPARSEK Attention vor, einen neuartigen sparsamen Aufmerksamkeitsmechanismus, der entwickelt wurde, um diese Rechen- und Speicherhindernisse zu überwinden, während die Leistung beibehalten wird. Unser Ansatz integriert ein Bewertungsnetzwerk und einen differenzierbaren Top-k-Maskenoperator, SPARSEK, um eine konstante Anzahl von KV-Paaren für jede Abfrage auszuwählen, wodurch eine optimierungsbasierte Gradientenberechnung ermöglicht wird. Somit bietet SPARSEK Attention eine lineare Zeitkomplexität und einen konstanten Speicherplatzbedarf während der Generierung. Experimentelle Ergebnisse zeigen, dass SPARSEK Attention frühere sparsame Aufmerksamkeitsmethoden übertrifft und signifikante Geschwindigkeitsverbesserungen sowohl während des Trainings als auch der Inferenz bietet, insbesondere bei der Sprachmodellierung und nachgelagerten Aufgaben. Darüber hinaus kann unsere Methode nahtlos in vorab trainierte große Sprachmodelle (LLMs) mit minimalem Feintuning integriert werden und bietet somit eine praktische Lösung zur effektiven Verwaltung von Langstreckenabhängigkeiten in verschiedenen Anwendungen.

Semantische Entropie-Sonden: Robuste und kostengünstige Halluzinationserkennung in LLMs
Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

Jun 22

ByJannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal

Wir schlagen semantische Entropie-Sonden (SEPs) vor, eine kostengünstige und zuverlässige Methode zur Unsicherheitsquantifizierung in Large Language Models (LLMs). Halluzinationen, die plausibel klingen, aber faktisch inkorrekt und willkürlich sind, stellen eine große Herausforderung für die praktische Anwendung von LLMs dar. Kürzlich vorgestellte Arbeit von Farquhar et al. (2024) schlägt semantische Entropie (SE) vor, die Halluzinationen erkennen kann, indem sie die Unsicherheit im semantischen Bedeutungsraum für eine Reihe von Modellgenerationen schätzt. Allerdings behindert der 5- bis 10-fache Anstieg der Rechenkosten, die mit der SE-Berechnung verbunden sind, die praktische Anwendung. Um dies zu lösen, schlagen wir SEPs vor, die SE direkt aus den verborgenen Zuständen einer einzelnen Generation approximieren. SEPs sind einfach zu trainieren und erfordern keine Probenahme mehrerer Modellgenerationen zur Testzeit, was den Overhead der semantischen Unsicherheitsquantifizierung auf nahezu null reduziert. Wir zeigen, dass SEPs eine hohe Leistung bei der Halluzinationserkennung beibehalten und besser auf Out-of-Distribution-Daten generalisieren als bisherige Sondenmethoden, die die Modellgenauigkeit direkt vorhersagen. Unsere Ergebnisse über Modelle und Aufgaben hinweg legen nahe, dass Modellverborgene Zustände SE erfassen, und unsere Ablationsstudien geben weitere Einblicke in die Token-Positionen und Modellschichten, für die dies zutrifft.

Jenseits des rundenbasierten Spiels: Ermöglichen von Echtzeitgesprächen mit Duplex-Modellen
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

Jun 22

ByXinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu

Mit dem zunehmenden Einfluss großer Sprachmodelle (LLMs) auf den Alltag steigt der Bedarf an Echtzeit-Interaktionen, die menschliche Gespräche widerspiegeln. Traditionelle, auf Abwechselung basierende Chat-Systeme, die von LLMs gesteuert werden, verhindern, dass Benutzer verbal mit dem System interagieren, während es Antworten generiert. Um diese Einschränkungen zu überwinden, passen wir bestehende LLMs für Duplex-Modelle an, sodass diese LLMs Benutzer zuhören können, während sie Ausgaben generieren und sich dynamisch anpassen, um Benutzern sofortiges Feedback zu geben, z. B. als Reaktion auf Unterbrechungen. Konkret unterteilen wir die Anfragen und Antworten von Gesprächen in mehrere Zeitscheiben und übernehmen dann eine Zeitmultiplex-Kodierungs-Decodierungsstrategie, um diese Scheiben pseudo-simultan zu verarbeiten. Darüber hinaus erstellen wir, um LLMs ausreichend leistungsfähig zu machen, um Echtzeit-Gespräche zu bewältigen, ein Feinabstimmungsdatenset, das aus abwechselnden Zeitscheiben von Anfragen und Antworten besteht und typische Feedback-Typen in sofortigen Interaktionen abdeckt. Unsere Experimente zeigen, dass LLMs trotz der Segmentierung von Anfragen und Antworten von Gesprächen in unvollständige Scheiben für die Verarbeitung ihre ursprüngliche Leistung auf Standard-Benchmarks mit einigen Feinabstimmungsschritten auf unserem Datenset beibehalten können. Automatische und menschliche Bewertungen zeigen, dass Duplex-Modelle Benutzer-KI-Interaktionen natürlicher und menschenähnlicher gestalten und im Vergleich zu herkömmlichen LLMs die Benutzerzufriedenheit erheblich steigern. Unser Duplex-Modell und Datenset werden veröffentlicht.

Präferenzabstimmung zur Minderung von Toxizität generalisiert über Sprachen hinweg.
Preference Tuning For Toxicity Mitigation Generalizes Across Languages

Jun 23

ByXiaochen Li, Zheng-Xin Yong, Stephen H. Bach

Die Entgiftung von mehrsprachigen Large Language Models (LLMs) ist aufgrund ihrer zunehmenden globalen Verwendung entscheidend geworden. In dieser Arbeit untersuchen wir die Null-Schuss-querlinguale Verallgemeinerung der Präferenzabstimmung zur Entgiftung von LLMs. Im Gegensatz zu früheren Studien, die eine begrenzte querlinguale Verallgemeinerung für andere Sicherheitsaufgaben zeigen, zeigen wir, dass das Training mit Direkter Präferenzoptimierung (DPO) nur mit englischen Daten die Toxizität bei mehrsprachigen offenen Generierungen signifikant reduzieren kann. Zum Beispiel sinkt die Wahrscheinlichkeit, dass mGPT-1.3B toxische Fortsetzungen generiert, nach dem Training von 46,8% auf 3,9% in 17 verschiedenen Sprachen. Unsere Ergebnisse erstrecken sich auch auf andere mehrsprachige LLMs wie BLOOM, Llama3 und Aya-23. Unter Verwendung mechanistischer Interpretierbarkeitswerkzeuge wie kausaler Intervention und Aktivierungsanalyse identifizierten wir die duale Mehrsprachigkeits-Eigenschaft der MLP-Schichten in LLMs, die die querlinguale Verallgemeinerung von DPO erklärt. Schließlich zeigen wir, dass die zweisprachige Satzrückgewinnung die querlinguale Übertragbarkeit der DPO-Präferenzabstimmung vorhersagen kann.

Automatische Erkennung: Auf dem Weg zu einem einheitlichen Rahmen für die automatisierte Schwachstellenentdeckung in großen Sprachmodellen
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

Jun 24

ByJiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang

Obwohl Große Sprachmodelle (LLMs) immer leistungsstärker werden, zeigen sie immer noch signifikante, aber subtile Schwächen, wie Fehler bei Anweisungsverfolgung oder Kodierungsaufgaben. Da diese unerwarteten Fehler in praktischen Anwendungen zu schwerwiegenden Konsequenzen führen könnten, ist es entscheidend, die Grenzen von LLMs systematisch zu untersuchen. Traditionelle Benchmarking-Ansätze können spezifische Modelldefizite nicht gründlich identifizieren, während manuelle Inspektionen kostspielig und nicht skalierbar sind. In diesem Papier stellen wir ein einheitliches Framework, AutoDetect, vor, um Schwächen in LLMs automatisch über verschiedene Aufgaben hinweg aufzudecken. Inspiriert vom Bildungsbeurteilungsprozess, der die Lernerfolge von Schülern misst, besteht AutoDetect aus drei LLM-gesteuerten Agenten: Prüfer, Fragesteller und Bewerter. Die Zusammenarbeit dieser drei Agenten ist darauf ausgelegt, eine umfassende und tiefgreifende Schwächenidentifikation zu realisieren. Unser Framework zeigt signifikanten Erfolg bei der Aufdeckung von Mängeln, mit einer Identifikationsrate von über 30% in prominenten Modellen wie ChatGPT und Claude. Noch wichtiger ist, dass diese identifizierten Schwächen konkrete Modellverbesserungen anleiten können, die effektiver sind als ungerichtete Datenaugmentationsmethoden wie Self-Instruct. Unser Ansatz hat zu erheblichen Verbesserungen bei beliebten LLMs geführt, einschließlich der Llama-Serie und Mistral-7b, wodurch ihre Leistung in mehreren Benchmarks um über 10% gesteigert wurde. Code und Daten sind öffentlich unter https://github.com/thu-coai/AutoDetect verfügbar.

Vertrauensregulierungsneuronen in Sprachmodellen
Confidence Regulation Neurons in Language Models

Jun 24

ByAlessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda

Trotz ihrer weit verbreiteten Verwendung bleiben die Mechanismen, mit denen große Sprachmodelle (LLMs) Unsicherheiten bei Vorhersagen des nächsten Tokens darstellen und regulieren, weitgehend unerforscht. Diese Studie untersucht zwei entscheidende Komponenten, von denen angenommen wird, dass sie diese Unsicherheit beeinflussen: die kürzlich entdeckten Entropieneuronen und eine neue Reihe von Komponenten, die wir als Token-Frequenz-Neuronen bezeichnen. Entropieneuronen zeichnen sich durch eine ungewöhnlich hohe Gewichtsnorm aus und beeinflussen die Skalierung der Endschichtnormalisierung (LayerNorm), um die Logits effektiv zu reduzieren. Unsere Arbeit zeigt, dass Entropieneuronen durch Schreiben in einen Unembedding-Nullraum arbeiten, was es ihnen ermöglicht, den Reststromnorm mit minimalem direktem Einfluss auf die Logits selbst zu beeinflussen. Wir beobachten das Vorhandensein von Entropieneuronen in einer Reihe von Modellen mit bis zu 7 Milliarden Parametern. Andererseits verstärken oder unterdrücken Token-Frequenz-Neuronen, die wir hier erstmals entdecken und beschreiben, den Logit jedes Tokens proportional zu seiner logarithmischen Häufigkeit und verschieben so die Ausgabeverteilung in Richtung oder weg von der Unigrammverteilung. Schließlich präsentieren wir eine detaillierte Fallstudie, in der Entropieneuronen aktiv das Vertrauen in der Induktionsumgebung steuern, d.h. das Erkennen und Fortsetzen wiederholter Teilfolgen.

Wie viele Parameter benötigt es, um eine Glühbirne zu wechseln? Bewertung der Leistung im Selbstspiel von Konversationspielen in Abhängigkeit von den Modellcharakteristika.
How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics

Jun 20

ByNidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen

Was macht ein gutes Large Language Model (LLM) aus? Dass es gut auf den relevanten Benchmarks abschneidet - die hoffentlich die Vorhandensein von Fähigkeiten messen, die auch in realen Anwendungen herausgefordert werden. Aber was lässt das Modell gut abschneiden? Was verleiht einem Modell seine Fähigkeiten? Wir nehmen einen kürzlich eingeführten Benchmark-Typ, der darauf abzielt, Fähigkeiten in einem zielgerichteten, agentiven Kontext durch Selbstspiel von Konversationspielen herauszufordern, und analysieren, wie sich die Leistung in Abhängigkeit von Modellmerkmalen wie der Anzahl der Parameter oder dem Trainingstyp entwickelt. Wir stellen fest, dass zwar eine klare Beziehung zwischen der Anzahl der Parameter und der Leistung besteht, es jedoch immer noch eine breite Streuung von Leistungspunkten innerhalb einer bestimmten Größenklasse gibt, die durch Trainingsparameter wie die Qualität der Feinabstimmungsdaten und -methode berücksichtigt werden muss. Aus einer praktischeren Perspektive heraus stellen wir auch ein gewisses Maß an Unvorhersehbarkeit hinsichtlich der Leistung über verschiedene Zugriffsmethoden fest, möglicherweise aufgrund nicht offengelegter Abtastparameter, sowie eine sehr willkommene Leistungsstabilität gegen zumindest moderate Gewichtsquantisierung während der Inferenz.

KleidTraum: Textgesteuerte Kleidungserzeugung mit 3D-Gaußschen.
ClotheDreamer: Text-Guided Garment Generation with 3D Gaussians

Jun 24

ByYufei Liu, Junshu Tang, Chu Zheng, Shijie Zhang, Jinkun Hao, Junwei Zhu, Dongjin Huang

Die hochwertige 3D-Kleidungssynthese aus Text ist wünschenswert, aber herausfordernd für die Erstellung digitaler Avatare. Kürzlich entwickelte diffusionsbasierte Ansätze über Score Distillation Sampling (SDS) haben neue Möglichkeiten eröffnet, aber entweder eng mit dem menschlichen Körper verbunden oder haben Schwierigkeiten bei der Wiederverwendung. Wir stellen ClotheDreamer vor, eine 3D-Gauß-basierte Methode zur Generierung von tragbaren, produktionsfertigen 3D-Kleidungsstücken aus Texteingaben. Wir schlagen eine neuartige Darstellung namens Disentangled Clothe Gaussian Splatting (DCGS) vor, um separate Optimierungen zu ermöglichen. DCGS stellt den bekleideten Avatar als ein Gauß-Modell dar, friert jedoch die Körpersplats ein. Zur Verbesserung von Qualität und Vollständigkeit integrieren wir bidirektionales SDS zur Überwachung des bekleideten Avatars und der Kleidungs-RGBD-Renderings jeweils mit Posebedingungen und schlagen eine neue Strategie zur Entfernung von lockerer Kleidung vor. Unser Ansatz kann auch benutzerdefinierte Kleidungsvorlagen als Eingabe unterstützen. Dank unseres Designs kann die synthetische 3D-Kleidung problemlos für virtuelles Anprobieren verwendet werden und unterstützt physikalisch genaue Animationen. Umfangreiche Experimente zeigen die überlegene und wettbewerbsfähige Leistung unserer Methode. Unsere Projektseite befindet sich unter https://ggxxii.github.io/clothedreamer.

In der Mitte gefunden: Die Kalibrierung des Positionsaufmerksamkeitsfehlers verbessert die Nutzung von langem Kontext.
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

Jun 23

ByCheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

Große Sprachmodelle (LLMs), selbst wenn sie speziell darauf trainiert sind, lange Eingangskontexte zu verarbeiten, haben Schwierigkeiten, relevante Informationen zu erfassen, die sich in der Mitte ihres Eingangs befinden. Dieses Phänomen ist als das "Lost-in-the-Middle"-Problem bekannt. In dieser Arbeit leisten wir drei Beiträge. Erstens versuchen wir, die Faktoren zu verstehen, die dieses Phänomen verursachen. Dabei stellen wir eine Verbindung zwischen "Lost-in-the-Middle" und der intrinsischen Aufmerksamkeitsverzerrung von LLMs her: LLMs zeigen eine U-förmige Aufmerksamkeitsverzerrung, bei der die Tokens am Anfang und am Ende ihres Eingangs unabhängig von ihrer Relevanz mehr Aufmerksamkeit erhalten. Zweitens mildern wir diese positionale Verzerrung durch einen Kalibrierungsmechanismus, "Found-in-the-Middle", der es dem Modell ermöglicht, Kontexte gemäß ihrer Relevanz treu zu beachten, auch wenn sie sich in der Mitte befinden. Drittens zeigen wir, dass "Found-in-the-Middle" nicht nur eine bessere Leistung bei der Lokalisierung relevanter Informationen innerhalb eines langen Kontexts erzielt, sondern letztendlich auch zu einer verbesserten Leistung bei der abrufgestützten Generierung (RAG) über verschiedene Aufgaben hinweg führt und bestehende Methoden um bis zu 15 Prozentpunkte übertrifft. Diese Erkenntnisse eröffnen zukünftige Richtungen im Verständnis der Aufmerksamkeitsverzerrung von LLMs und ihrer potenziellen Konsequenzen.

video-SALMONN: Sprachverbesserte Audio-Visuelle Große Sprachmodelle
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Jun 22

ByGuangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang

Die Sprachverständnis als ein Element des allgemeineren Videoverständnisses unter Verwendung von audiovisuellen großen Sprachmodellen (av-LLMs) ist ein entscheidender, jedoch unteruntersuchter Aspekt. Dieser Artikel schlägt Video-SALMONN vor, ein einziges end-to-end av-LLM für die Videobearbeitung, das nicht nur visuelle Bildsequenzen, Audioereignisse und Musik, sondern auch Sprache verstehen kann. Um die für das Sprachverständnis erforderlichen feinkörnigen zeitlichen Informationen zu erhalten, während es effizient für andere Videoelemente bleibt, schlägt dieser Artikel eine neuartige Multi-Resolution Causal Q-Former (MRC Q-Former)-Struktur vor, um vortrainierte audiovisuelle Encoder und das Backbone große Sprachmodell zu verbinden. Darüber hinaus werden spezielle Schulungsansätze wie der Diversitätsverlust und das unpaarte audiovisuelle gemischte Schulungsschema vorgeschlagen, um Dominanz von Frames oder Modalitäten zu vermeiden. Auf dem vorgestellten Sprach-Audio-Video-Evaluierungsbenchmark erzielt Video-SALMONN mehr als 25\% absolute Genauigkeitsverbesserungen bei der Video-F&A-Aufgabe und über 30\% absolute Genauigkeitsverbesserungen bei Audio-Video-F&A-Aufgaben mit menschlicher Sprache. Darüber hinaus zeigt Video-SALMONN bemerkenswerte Videoverständnis- und Schlussfolgerungsfähigkeiten bei Aufgaben, die von anderen av-LLMs bisher unerreicht sind. Unser Schulungscode und Modellprüfpunkte sind verfügbar unter \url{https://github.com/bytedance/SALMONN/}.

IRASim: Lernen interaktiver Echtroboter-Aktionssimulatoren
IRASim: Learning Interactive Real-Robot Action Simulators

Jun 20

ByFangqi Zhu, Hongtao Wu, Song Guo, Yuxiao Liu, Chilam Cheang, Tao Kong

Das skalierbare Lernen von Robotern in der realen Welt wird durch die Kosten- und Sicherheitsprobleme realer Roboter begrenzt. Darüber hinaus kann das Ausrollen von Robotertrajektorien in der realen Welt zeitaufwändig und arbeitsintensiv sein. In diesem Paper schlagen wir vor, einen interaktiven Echtroboter-Aktionssimulator als Alternative zu erlernen. Wir stellen eine neue Methode, IRASim, vor, die die Leistung generativer Modelle nutzt, um äußerst realistische Videos eines Roboterarms zu generieren, der eine gegebene Aktionsbahn ausführt, ausgehend von einem initialen gegebenen Frame. Zur Validierung der Effektivität unserer Methode erstellen wir einen neuen Benchmark, den IRASim Benchmark, basierend auf drei realen Roboterdatensätzen, und führen umfangreiche Experimente auf dem Benchmark durch. Die Ergebnisse zeigen, dass IRASim alle Basismethoden übertrifft und in menschlichen Bewertungen bevorzugt wird. Wir hoffen, dass IRASim als effektiver und skalierbarer Ansatz dienen kann, um das Roboterlernen in der realen Welt zu verbessern. Um die Forschung für generative Echtroboter-Aktionssimulatoren zu fördern, stellen wir den Code, den Benchmark und die Checkpoints unter https://gen-irasim.github.io als Open Source zur Verfügung.

Kann Few-shot in einem langen Kontext funktionieren? Das Wiederverwenden des Kontexts zur Generierung von Demonstrationen
Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations

Jun 19

ByArie Cattan, Alon Jacovi, Alex Fabrikant, Jonathan Herzig, Roee Aharoni, Hannah Rashkin, Dror Marcus, Avinatan Hassidim, Yossi Matias, Idan Szpektor, Avi Caciularu

Trotz der jüngsten Fortschritte bei Large Language Models (LLMs) bleibt ihre Leistung bei Aufgaben mit langen Kontexten suboptimal. Das In-Context Learning (ICL) mit Few-Shot-Beispielen könnte eine attraktive Lösung sein, um die Leistung von LLMs in diesem Szenario zu verbessern. Allerdings führt das einfache Hinzufügen von ICL-Beispielen mit langem Kontext zu Herausforderungen, darunter erheblicher Token-Overhead für jedes Few-Shot-Beispiel und Kontextinkongruenz zwischen den Demonstrationen und der Zielabfrage. In dieser Arbeit schlagen wir vor, Few-Shot-Beispiele für Long-Context-QA-Aufgaben durch das Wiederverwenden von Kontexten automatisch zu generieren. Konkret generieren wir zusätzliche Query-Output-Paare aus dem gegebenen Kontext als Few-Shot-Beispiele, wobei der Kontext nur einmal eingeführt wird. Dadurch wird sichergestellt, dass die Demonstrationen denselben Kontext wie die Zielabfrage nutzen, während nur eine geringe Anzahl von Tokens zur Eingabe hinzugefügt wird. Jede Demonstration wird weiter verbessert, indem das Modell angewiesen wird, die relevanten Absätze vor der Antwort explizit zu identifizieren, was die Leistung verbessert und eine fein abgestufte Zuordnung zur Antwortquelle ermöglicht. Wir wenden unsere Methode auf mehrere LLMs an und erzielen signifikante Verbesserungen (+23\% im Durchschnitt über Modelle hinweg) auf verschiedenen QA-Datensätzen mit langem Kontext, insbesondere wenn die Antwort mitten im Kontext liegt. Überraschenderweise generalisieren LLMs trotz der Einführung von nur Single-Hop-ICL-Beispielen auch erfolgreich zu Multi-Hop-Long-Context-QA unter Verwendung unseres Ansatzes.

Abstoßungswert-Destillation zur vielfältigen Stichprobenahme von Diffusionsmodellen
Repulsive Score Distillation for Diverse Sampling of Diffusion Models

Jun 24

ByNicolas Zilberstein, Morteza Mardani, Santiago Segarra

Die Score-Distillation durch Abtastung war entscheidend für die Integration von Diffusionsmodellen in die Generierung komplexer visueller Inhalte. Trotz beeindruckender Ergebnisse leidet sie unter Modus-Kollaps und Mangel an Diversität. Um diese Herausforderung zu bewältigen, nutzen wir die Gradientenfluss-Interpretation der Score-Distillation, um die Abstoßende Score-Distillation (RSD) vorzuschlagen. Insbesondere schlagen wir ein variationsbasiertes Framework vor, das auf der Abstoßung eines Ensembles von Partikeln basiert, um Diversität zu fördern. Unter Verwendung einer variationsbasierten Approximation, die eine Kopplung zwischen Partikeln beinhaltet, erscheint die Abstoßung als einfache Regularisierung, die eine Interaktion der Partikel basierend auf ihrer relativen paarweisen Ähnlichkeit ermöglicht, gemessen z.B. über radiale Basis-Kernel. Wir entwerfen RSD für sowohl unbeschränkte als auch beschränkte Abtastszenarien. Für beschränkte Abtastung konzentrieren wir uns auf inverse Probleme im latenten Raum, die zu einer erweiterten variationsbasierten Formulierung führen, die ein gutes Gleichgewicht zwischen Rechenleistung, Qualität und Diversität schafft. Unsere umfangreichen Experimente zur Text-zu-Bild-Generierung und inversen Problemen zeigen, dass RSD einen überlegenen Kompromiss zwischen Diversität und Qualität im Vergleich zu modernsten Alternativen erreicht.

OlympicArena Medaillenrangliste: Wer ist bisher die intelligenteste KI?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

Jun 24

ByZhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu

In diesem Bericht stellen wir die Frage: Wer ist das intelligenteste KI-Modell, das bisher existiert, gemessen an der OlympicArena (einem olympischen, multidisziplinären, multimodalen Benchmark für superintelligente KI)? Wir konzentrieren uns speziell auf die neuesten Modelle: Claude-3.5-Sonnet, Gemini-1.5-Pro und GPT-4o. Erstmals schlagen wir vor, einen Ansatz mit einer olympischen Medaillentabelle zu verwenden, um KI-Modelle basierend auf ihrer umfassenden Leistung in verschiedenen Disziplinen zu bewerten. Empirische Ergebnisse zeigen: (1) Claude-3.5-Sonnet zeigt eine äußerst wettbewerbsfähige Gesamtleistung gegenüber GPT-4o, und übertrifft sogar GPT-4o in einigen Fächern (d.h. Physik, Chemie und Biologie). (2) Gemini-1.5-Pro und GPT-4V werden direkt hinter GPT-4o und Claude-3.5-Sonnet eingestuft, aber mit einem klaren Leistungsunterschied zwischen ihnen. (3) Die Leistung von KI-Modellen aus der Open-Source-Community hinkt diesen proprietären Modellen deutlich hinterher. (4) Die Leistung dieser Modelle in diesem Benchmark war weniger zufriedenstellend, was darauf hindeutet, dass wir noch einen langen Weg vor uns haben, um Superintelligenz zu erreichen. Wir bleiben weiterhin engagiert darin, die Leistung der neuesten leistungsstarken Modelle auf diesem Benchmark kontinuierlich zu verfolgen und zu bewerten (verfügbar unter https://github.com/GAIR-NLP/OlympicArena).