HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

Qwen2 Technischer Bericht
Qwen2 Technical Report

Jul 15

ByAn Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Zeyu Cui, Zhenru Zhang, Zhihao Fan

166

Dieser Bericht stellt die Qwen2-Serie vor, die neueste Ergänzung zu unseren großen Sprachmodellen und großen multimodalen Modellen. Wir veröffentlichen eine umfassende Reihe von grundlegenden und anweisungsgesteuerten Sprachmodellen, die einen Parameterbereich von 0,5 bis 72 Milliarden umfassen und dichte Modelle sowie ein Mixture-of-Experts-Modell umfassen. Qwen2 übertrifft die meisten früheren Open-Weight-Modelle, einschließlich seines Vorgängers Qwen1.5, und zeigt eine wettbewerbsfähige Leistung im Vergleich zu proprietären Modellen in verschiedenen Benchmarks für Sprachverständnis, Generierung, mehrsprachige Kompetenz, Codierung, Mathematik und Argumentation. Das Flaggschiff-Modell, Qwen2-72B, zeigt bemerkenswerte Leistungen: 84,2 bei MMLU, 37,9 bei GPQA, 64,6 bei HumanEval, 89,5 bei GSM8K und 82,4 bei BBH als Basissprachmodell. Die anweisungsgesteuerte Variante, Qwen2-72B-Instruct, erreicht 9,1 bei MT-Bench, 48,1 bei Arena-Hard und 35,7 bei LiveCodeBench. Darüber hinaus zeigt Qwen2 robuste mehrsprachige Fähigkeiten, ist in etwa 30 Sprachen versiert, darunter Englisch, Chinesisch, Spanisch, Französisch, Deutsch, Arabisch, Russisch, Koreanisch, Japanisch, Thailändisch, Vietnamesisch und mehr, was seine Vielseitigkeit und globale Reichweite unterstreicht. Um Innovation und Zugänglichkeit in der Community zu fördern, haben wir die Qwen2-Modellgewichte offen auf Hugging Face und ModelScope sowie die ergänzenden Materialien einschließlich Beispielcode auf GitHub zur Verfügung gestellt. Diese Plattformen bieten auch Ressourcen für Quantisierung, Feinabstimmung und Bereitstellung, um eine Vielzahl von Anwendungen und Forschungsvorhaben zu erleichtern.

Lernen, um abzulehnen: Zur Minderung von Datenschutzrisiken in LLMs
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

Jul 14

ByZhenhua Liu, Tong Zhu, Chuanyuan Tan, Wenliang Chen

Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten im Verstehen und Generieren natürlicher Sprache. Allerdings können diese Modelle unbeabsichtigt private Informationen memorieren und somit erhebliche Datenschutzrisiken darstellen. Diese Studie befasst sich mit der Herausforderung, LLMs zu befähigen, spezifische private Daten von Einzelpersonen zu schützen, ohne dass eine vollständige Neuschulung erforderlich ist. Wir schlagen \return vor, ein Real-world pErsonal daTa UnleaRNing-Datensatz, der 2.492 Personen aus Wikipedia mit zugehörigen Frage-Antwort-Paaren umfasst, um Methoden des maschinellen Vergessens (MU) zur Sicherung persönlicher Daten in einem realistischen Szenario zu bewerten. Darüber hinaus führen wir das Name-Aware Unlearning Framework (NAUF) für den Datenschutz ein, das dem Modell ermöglicht zu lernen, welche Informationen von Einzelpersonen geschützt werden sollten, ohne seine Fähigkeit zu beeinträchtigen, Fragen zu anderen nicht verwandten Personen zu beantworten. Unsere umfangreichen Experimente zeigen, dass NAUF einen Spitzenwert beim durchschnittlichen Vergessen erzielt, den besten Basismethoden um 5,65 Punkte übertrifft und somit die persönlichen Daten der Zielindividuen effektiv schützt, während die allgemeinen Fähigkeiten des Modells erhalten bleiben.

GRUtopia: Traumhafte General Robots in einer Stadt im großen Maßstab
GRUtopia: Dream General Robots in a City at Scale

Jul 15

ByHanqing Wang, Jiahe Chen, Wensi Huang, Qingwei Ben, Tai Wang, Boyu Mi, Tao Huang, Siheng Zhao, Yilun Chen, Sizhe Yang, Peizhou Cao, Wenye Yu, Zichao Ye, Jialun Li, Junfeng Long, Zirui Wang, Huiling Wang, Ying Zhao, Zhongying Tu, Yu Qiao, Dahua Lin, Jiangmiao Pang

In jüngster Zeit wurden die Skalierungsgesetze im Bereich der verkörperten KI erforscht. Angesichts der hohen Kosten für die Sammlung von Echtwelt-Daten halten wir das Simulation-to-Real (Sim2Real)-Paradigma für einen entscheidenden Schritt zur Skalierung des Lernens verkörperter Modelle. Dieses Papier stellt das Projekt GRUtopia vor, die erste simulierte interaktive 3D-Gesellschaft, die für verschiedene Roboter konzipiert wurde. Es bietet mehrere Fortschritte: (a) Der Szenendatensatz, GRScenes, umfasst 100.000 interaktive, fein annotierte Szenen, die frei zu stadtweiten Umgebungen kombiniert werden können. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf den Haushalt konzentrierten, deckt GRScenes 89 verschiedene Szenenkategorien ab und überbrückt somit die Lücke serviceorientierter Umgebungen, in denen allgemeine Roboter zunächst eingesetzt werden würden. (b) GRResidents, ein von einem Large Language Model (LLM) gesteuertes Non-Player Character (NPC)-System, das für soziale Interaktion, Aufgabenerstellung und Aufgabenverteilung verantwortlich ist und somit soziale Szenarien für verkörperte KI-Anwendungen simuliert. (c) Der Benchmark, GRBench, unterstützt verschiedene Roboter, konzentriert sich jedoch auf Bein-Roboter als Hauptakteure und stellt moderat anspruchsvolle Aufgaben wie Objekt-Lokalisierungsnavigation, Soziale Lokalisierungsnavigation und Lokale Manipulation. Wir hoffen, dass diese Arbeit den Mangel an hochwertigen Daten in diesem Bereich lindern und eine umfassendere Bewertung der verkörperten KI-Forschung ermöglichen kann. Das Projekt ist unter https://github.com/OpenRobotLab/GRUtopia verfügbar.

Das Gute, das Schlechte und das Gierige: Die Bewertung von LLMs sollte die Nichtdeterminiertheit nicht ignorieren.
The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

Jul 15

ByYifan Song, Guoyin Wang, Sujian Li, Bill Yuchen Lin

Aktuelle Bewertungen großer Sprachmodelle (LLMs) übersehen oft die Nichtdeterminiertheit und konzentrieren sich in der Regel auf eine einzige Ausgabe pro Beispiel. Dies begrenzt unser Verständnis der Leistungsvariabilität von LLMs in realen Anwendungen. Unsere Studie befasst sich mit diesem Problem, indem sie Schlüsselfragen zu den Leistungsunterschieden zwischen gierigem Decodieren und Sampling untersucht, die Konsistenz von Benchmarks hinsichtlich der Nichtdeterminiertheit identifiziert und einzigartige Verhaltensweisen von Modellen untersucht. Durch umfangreiche Experimente beobachten wir, dass gieriges Decodieren im Allgemeinen für die meisten bewerteten Aufgaben Sampling-Methoden übertrifft. Wir stellen auch eine konsistente Leistung über verschiedene LLM-Größen und Ausrichtungsmethoden fest und merken an, dass die Ausrichtung die Sampling-Varianz reduzieren kann. Darüber hinaus zeigt unser Best-of-N-Sampling-Ansatz, dass kleinere LLMs mit größeren Modellen wie GPT-4-Turbo mithalten oder diese übertreffen können, was das ungenutzte Potenzial kleinerer LLMs hervorhebt. Diese Forschung verdeutlicht die Bedeutung der Berücksichtigung von Nichtdeterminiertheit bei LLM-Bewertungen und bietet Einblicke für die zukünftige Entwicklung und Bewertung von LLMs.

Q-Sparse: Alle großen Sprachmodelle können vollständig spärlich aktiviert werden.
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

Jul 15

ByHongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei

Wir stellen Q-Sparse vor, einen einfachen, aber effektiven Ansatz zum Training von spärlich aktivierten großen Sprachmodellen (LLMs). Q-Sparse ermöglicht volle Sparsamkeit der Aktivierungen in LLMs, was signifikante Effizienzgewinne bei der Inferenz bringen kann. Dies wird durch die Anwendung von Top-K-Sparsifikation auf die Aktivierungen und den Straight-Through-Schätzer beim Training erreicht. Die wichtigsten Ergebnisse dieser Arbeit sind: (1) Q-Sparse kann Ergebnisse erzielen, die mit denen von Baseline-LLMs vergleichbar sind, während es zur Inferenzzeit viel effizienter ist; (2) Wir präsentieren ein inferenzoptimales Skalierungsgesetz für spärlich aktivierten LLMs; (3) Q-Sparse ist in verschiedenen Einstellungen wirksam, einschließlich Training von Grund auf, Fortsetzung des Trainings von Standard-LLMs und Feinabstimmung; (4) Q-Sparse funktioniert sowohl für volle Präzision als auch für 1-Bit-LLMs (z. B. BitNet b1.58). Insbesondere bietet die Synergie von BitNet b1.58 und Q-Sparse (kann mit MoE ausgestattet werden) das Fundament und einen klaren Weg, um die Effizienz, einschließlich Kosten und Energieverbrauch, zukünftiger LLMs zu revolutionieren.

Grundlegende Autorater: Die Bändigung großer Sprachmodelle für eine bessere automatische Bewertung
Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

Jul 15

ByTu Vu, Kalpesh Krishna, Salaheddin Alzubi, Chris Tar, Manaal Faruqui, Yun-Hsuan Sung

Mit dem Fortschreiten großer Sprachmodelle (LLMs) wird es zunehmend herausfordernder, ihre Ausgaben zuverlässig zu bewerten, aufgrund der hohen Kosten für menschliche Bewertungen. Um Fortschritte in Richtung besserer LLM-Autorater zu erzielen, stellen wir FLAMe vor, eine Familie von Grundlegenden Großen Autorater-Modellen. FLAMe wird auf unserer großen und vielfältigen Sammlung von über 100 Qualitätsbewertungsaufgaben trainiert, die mehr als 5 Millionen menschliche Bewertungen umfassen, kuratiert und standardisiert unter Verwendung öffentlich freigegebener menschlicher Bewertungen aus früheren Forschungsarbeiten. FLAMe verbessert signifikant die Verallgemeinerung auf eine Vielzahl von zurückgehaltenen Aufgaben und übertrifft LLMs, die auf proprietären Daten wie GPT-4 und Claude-3 trainiert wurden, in vielen Aufgaben. Wir zeigen, dass FLAMe auch als leistungsstarker Ausgangspunkt für weiteres Feintuning dienen kann, unter Verwendung der Bewertung durch Reward-Modellierung als Fallstudie (FLAMe-RM). Bemerkenswert ist, dass unser FLAMe-RM-24B-Modell auf RewardBench (mit einer Genauigkeit von 87,8%) das leistungsstärkste generative Modell ist, das ausschließlich auf großzügig lizenzierten Daten trainiert wurde, und sowohl GPT-4-0125 (85,9%) als auch GPT-4o (84,7%) übertrifft. Darüber hinaus untersuchen wir einen effizienteren Ansatz unter Verwendung einer neuartigen Feintuning-Strategie für Schwanz-Patches zur Optimierung unserer FLAMe-Multitask-Mischung für die Bewertung durch Reward-Modellierung (FLAMe-Opt-RM), wodurch eine wettbewerbsfähige Leistung auf RewardBench erzielt wird, während etwa 25-mal weniger Trainingsdatenpunkte erforderlich sind. Insgesamt übertrifft unsere FLAMe-Varianten alle beliebten proprietären LLM-als-Richter-Modelle, die wir in Betracht ziehen, in 8 von 12 Autorater-Evaluierungsbewertungen, die 53 Qualitätsbewertungsaufgaben umfassen, einschließlich RewardBench und LLM-AggreFact. Schließlich zeigt unsere Analyse, dass FLAMe auf dem CoBBLEr-Autorater-Bias-Benchmark signifikant weniger voreingenommen ist als diese LLM-als-Richter-Modelle, während es hochwertige Antworten für die Codegenerierung effektiv identifiziert.

Make-An-Agent: Ein generalisierbarer Richtliniennetzwerk-Generator mit Verhaltensgesteuerter Diffusion
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

Jul 15

ByYongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu

Können wir eine Steuerungsrichtlinie für einen Agenten generieren, indem wir nur eine Demonstration gewünschter Verhaltensweisen als Eingabe verwenden, so mühelos wie das Erstellen eines Bildes aus einer textuellen Beschreibung? In diesem Paper präsentieren wir Make-An-Agent, einen neuartigen Richtlinienparameter-Generator, der die Leistungsfähigkeit bedingter Diffusionsmodelle für die Generierung von Verhalten-zu-Richtlinie nutzt. Angeleitet durch Verhaltenseinbettungen, die Trajektorieninformationen codieren, synthetisiert unser Richtliniengenerator latente Parameterrepräsentationen, die dann in Richtliniennetzwerke decodiert werden können. Trainiert an Richtliniennetzwerk-Checkpoint und den entsprechenden Trajektorien zeigt unser Generierungsmodell bemerkenswerte Vielseitigkeit und Skalierbarkeit in verschiedenen Aufgaben und weist eine starke Verallgemeinerungsfähigkeit auf unbekannte Aufgaben auf, um gut durchgeführte Richtlinien mit nur wenigen Demonstrationen als Eingabe zu erzeugen. Wir präsentieren seine Wirksamkeit und Effizienz in verschiedenen Bereichen und Aufgaben, einschließlich unterschiedlicher Ziele, Verhaltensweisen und sogar über verschiedene Roboter-Manipulatoren hinweg. Über die Simulation hinaus setzen wir Richtlinien, die von Make-An-Agent generiert wurden, direkt auf realen Robotern in Fortbewegungsaufgaben ein.

DataDream: Generierung von Datensätzen mit wenigen Beispielen
DataDream: Few-shot Guided Dataset Generation

Jul 15

ByJae Myung Kim, Jessica Bader, Stephan Alaniz, Cordelia Schmid, Zeynep Akata

Obwohl Text-zu-Bild-Diffusionsmodelle gezeigt haben, dass sie Spitzenleistungen bei der Bildsynthese erzielen können, haben sie ihre Wirksamkeit in nachgelagerten Anwendungen noch nicht unter Beweis gestellt. Frühere Arbeiten haben vorgeschlagen, Daten für das Training von Bildklassifikatoren zu generieren, wenn nur begrenzter Zugriff auf echte Daten besteht. Diese Methoden haben jedoch Schwierigkeiten, Bilder innerhalb der Verteilung zu generieren oder feingliedrige Merkmale darzustellen, was die Verallgemeinerung von Klassifikationsmodellen, die auf synthetischen Datensätzen trainiert sind, behindert. Wir schlagen DataDream vor, ein Framework zur Synthese von Klassifikationsdatensätzen, das die reale Datenverteilung treuer darstellt, wenn es von wenigen Beispielen der Zielklassen geleitet wird. DataDream feinabstimmt die LoRA-Gewichte für das Bildgenerierungsmodell anhand der wenigen echten Bilder, bevor es die Trainingsdaten mit dem angepassten Modell generiert. Anschließend feinabstimmt DataDream die LoRA-Gewichte für CLIP unter Verwendung der synthetischen Daten, um die nachgelagerte Bildklassifikation im Vergleich zu früheren Ansätzen auf einer Vielzahl von Datensätzen zu verbessern. Wir zeigen die Wirksamkeit von DataDream durch umfangreiche Experimente, die die Spitzenklasse bei der Klassifikationsgenauigkeit mit wenigen Beispielen auf 7 von 10 Datensätzen übertreffen, während sie bei den anderen 3 wettbewerbsfähig sind. Darüber hinaus geben wir Einblicke in die Auswirkungen verschiedener Faktoren, wie die Anzahl der echten und generierten Bilder sowie die Feinabstimmungsberechnung auf die Leistung des Modells. Der Code ist verfügbar unter https://github.com/ExplainableML/DataDream.

Maskierte generative Video-zu-Audio-Transformer mit verbesserte Synchronizität
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

Jul 15

BySantiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

Die Video-zu-Audio (V2A)-Generierung nutzt ausschließlich visuelle Video-Merkmale, um plausible Klänge zu erzeugen, die zur Szene passen. Es ist wichtig, dass die erzeugten Klanganfänge mit den visuellen Aktionen übereinstimmen, die mit ihnen ausgerichtet sind, da sonst unnatürliche Synchronisationsartefakte entstehen. In jüngsten Arbeiten wurde die Entwicklung von Klanggeneratoren untersucht, die zunächst auf Standbildern und dann auf Video-Merkmalen basieren, wobei der Schwerpunkt auf Qualität und semantischer Übereinstimmung lag, während die Synchronisation ignoriert wurde oder durch Opferung eines gewissen Maßes an Qualität zugunsten der Verbesserung der Synchronisation erreicht wurde. In dieser Arbeit schlagen wir ein V2A-generatives Modell namens MaskVAT vor, das einen vollständigen hochwertigen allgemeinen Audio-Codec mit einem Sequenz-zu-Sequenz maskierten generativen Modell verbindet. Diese Kombination ermöglicht es, sowohl eine hohe Audioqualität, semantische Übereinstimmung als auch zeitliche Synchronizität gleichzeitig zu modellieren. Unsere Ergebnisse zeigen, dass wir durch die Kombination eines hochwertigen Codecs mit den entsprechenden vorab trainierten audiovisuellen Merkmalen und einer Sequenz-zu-Sequenz-Parallelstruktur hochgradig synchronisierte Ergebnisse erzielen können, während wir auf der anderen Seite im Wettbewerb mit dem Stand der Technik nicht-Codec-generativer Audio-Modelle stehen. Beispiellvideos und generierte Audios sind unter https://maskvat.github.io verfügbar.

Video-Belegungsmodelle
Video Occupancy Models

Jun 25

ByManan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine

Wir stellen eine neue Familie von Videovorhersagemodellen vor, die entwickelt wurden, um nachgelagerte Steuerungsaufgaben zu unterstützen. Wir nennen diese Modelle Video Occupancy Modelle (VOCs). VOCs arbeiten in einem kompakten latenten Raum, wodurch die Notwendigkeit entfällt, Vorhersagen über einzelne Pixel zu treffen. Im Gegensatz zu früheren Weltmodellen im latenten Raum sagen VOCs direkt die diskontierte Verteilung zukünftiger Zustände in einem Schritt vorher, wodurch die Notwendigkeit für mehrschrittige Rollouts vermieden wird. Wir zeigen, dass beide Eigenschaften vorteilhaft sind, wenn prädiktive Modelle von Videos für die Verwendung in nachgelagerten Steuerungen erstellt werden. Der Code ist verfügbar unter https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.

Spider2-V: Wie weit sind multimodale Agenten von der Automatisierung von Datenwissenschafts- und Ingenieur-Workflows entfernt?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Jul 15

ByRuisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Yuchen Mao, Wenjing Hu, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

Datenwissenschafts- und Ingenieur-Workflows umfassen oft mehrere Phasen, von der Datenspeicherung bis zur Orchestrierung, unter Verwendung von Tools wie BigQuery, dbt und Airbyte. Mit dem Fortschritt von Vision Language Models (VLMs) in der multimodalen Verständnis- und Codegenerierung könnten VLM-basierte Agenten potenziell diese Workflows automatisieren, indem sie SQL-Abfragen, Python-Code und GUI-Operationen generieren. Diese Automatisierung kann die Produktivität von Experten verbessern und den Zugang zur Datenanalyse im großen Maßstab demokratisieren. In diesem Papier stellen wir Spider2-V vor, den ersten multimodalen Agenten-Benchmark, der sich auf professionelle Datenwissenschafts- und Ingenieur-Workflows konzentriert und 494 realen Aufgaben in authentischen Computerumgebungen sowie 20 professionelle Anwendungen auf Unternehmensebene umfasst. Diese Aufgaben, abgeleitet von realen Anwendungsfällen, bewerten die Fähigkeit eines multimodalen Agenten, datenbezogene Aufgaben durch das Schreiben von Code und das Verwalten der GUI in Unternehmensdatensoftware-Systemen auszuführen. Um eine ausgewogene realistische Simulation mit einer einfachen Bewertung zu gewährleisten, widmen wir erhebliche Anstrengungen der Entwicklung automatischer Konfigurationen für die Aufgabeneinrichtung und der sorgfältigen Ausarbeitung von Bewertungskriterien für jede Aufgabe. Darüber hinaus ergänzen wir multimodale Agenten mit umfassenden Dokumentationen dieser Unternehmensdatensoftware-Systeme. Unsere empirische Bewertung zeigt, dass bestehende State-of-the-Art LLM/VLM-basierte Agenten Daten-Workflows nicht zuverlässig automatisieren (14,0% Erfolg). Selbst mit schrittweiser Anleitung erbringen diese Agenten immer noch eine unterdurchschnittliche Leistung bei Aufgaben, die feinkörnige, wissensintensive GUI-Aktionen erfordern (16,2%) und Remote-Cloud-Hosted-Arbeitsbereiche einbeziehen (10,6%). Wir hoffen, dass Spider2-V den Weg für autonome multimodale Agenten ebnet, um die Automatisierung von Datenwissenschafts- und Ingenieur-Workflows zu transformieren. Unser Code und unsere Daten sind unter https://spider2-v.github.io verfügbar.

SHERL: Synthese von hoher Genauigkeit und effizientem Speicher für ressourcenbeschränktes Transferlernen
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

Jul 10

ByHaiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen

Parameter-effizientes Transferlernen (PETL) hat sich als blühendes Forschungsfeld etabliert, um große vorab trainierte Modelle an nachgelagerte Aufgaben anzupassen, wobei die trainierbaren Parameter erheblich reduziert werden, während gleichzeitig mit Speicherherausforderungen während des Feinabstimmens gekämpft wird. Um dies anzugehen, vermeiden speichereffiziente Serien (METL) das Rückpropagieren von Gradienten durch das große Grundgerüst. Allerdings gehen sie Kompromisse ein, indem sie ausschließlich auf eingefrorene Zwischenausgaben angewiesen sind und die umfassende Exploration des Vorwissens aus vorab trainierten Modellen einschränken. Darüber hinaus werden die Abhängigkeit und Redundanz zwischen Merkmalen verschiedener Schichten häufig übersehen, wodurch mehr diskriminative Darstellungen untergehen und eine inhärente Leistungslücke (gegenüber herkömmlichen PETL-Methoden) verursacht wird. Daher schlagen wir eine innovative METL-Strategie namens SHERL für ressourcenbeschränkte Szenarien vor, um die gesamte Anpassung in zwei aufeinanderfolgende und ergänzende Prozesse zu trennen. Auf dem frühen Weg werden Zwischenausgaben über eine Anti-Redundanz-Operation konsolidiert, um ihre Kompatibilität für nachfolgende Interaktionen zu verbessern; auf dem späten Weg könnten minimale späte vorab trainierte Schichten die Spitzenbelastung des Speicheroverheads verringern und diese recht flexiblen Merkmale in adaptivere und leistungsstärkere Darstellungen für neue Bereiche regulieren. Umfangreiche Ablationen in Vision-und-Sprache- sowie Sprache-nur-Aufgaben zeigen, dass SHERL die Stärken sowohl von parameter- als auch von speichereffizienten Techniken kombiniert und bei der Feinabstimmung über verschiedene Architekturen hinweg mit geringerem Speicher gleichwertig oder besser abschneidet. Unser Code ist öffentlich verfügbar unter: https://github.com/Paranioar/SHERL.

LAB-Bench: Messung der Fähigkeiten von Sprachmodellen für biologische Forschung
LAB-Bench: Measuring Capabilities of Language Models for Biology Research

Jul 14

ByJon M. Laurent, Joseph D. Janizek, Michael Ruzo, Michaela M. Hinks, Michael J. Hammerling, Siddharth Narayanan, Manvitha Ponnapati, Andrew D. White, Samuel G. Rodriques

Es herrscht weit verbreiteter Optimismus, dass fortschrittliche Large Language Models (LLMs) und LLM-augmentierte Systeme das Potenzial haben, wissenschaftliche Entdeckungen über verschiedene Disziplinen hinweg schnell voranzutreiben. Heutzutage gibt es viele Benchmarks, um das Wissen und die Schlussfolgerungsfähigkeiten von LLMs anhand von wissenschaftlichen Fragen im Lehrbuchstil zu messen, aber nur wenige, wenn überhaupt, sind darauf ausgelegt, die Leistung von Sprachmodellen bei praktischen Aufgaben zu bewerten, die für wissenschaftliche Forschung erforderlich sind, wie Literaturrecherche, Protokollplanung und Datenanalyse. Als Schritt zur Entwicklung solcher Benchmarks stellen wir den Language Agent Biology Benchmark (LAB-Bench) vor, einen umfangreichen Datensatz mit über 2.400 Multiple-Choice-Fragen zur Bewertung von KI-Systemen in verschiedenen praktischen biologischen Forschungsbereichen, einschließlich des Abrufs und der Schlussfolgerung aus Literatur, Interpretation von Abbildungen, Zugriff und Navigation von Datenbanken sowie Verständnis und Bearbeitung von DNA- und Proteinsequenzen. Wichtig ist, dass wir im Gegensatz zu früheren wissenschaftlichen Benchmarks erwarten, dass ein KI-System, das konsequent hohe Punktzahlen bei den anspruchsvolleren LAB-Bench-Aufgaben erreichen kann, als nützlicher Assistent für Forscher in Bereichen wie Literaturrecherche und molekularer Klonierung dienen würde. Als erste Bewertung der aufkommenden wissenschaftlichen Fähigkeiten von fortschrittlichen Sprachmodellen messen wir die Leistung einiger Modelle anhand unseres Benchmarks und berichten über die Ergebnisse im Vergleich zu menschlichen Experten aus dem Bereich Biologie. Wir werden LAB-Bench im Laufe der Zeit weiter aktualisieren und erweitern und erwarten, dass es als nützliches Werkzeug bei der Entwicklung automatisierter Forschungssysteme dienen wird. Ein öffentlicher Teil von LAB-Bench steht unter folgender URL zur Verfügung: https://huggingface.co/datasets/futurehouse/lab-bench

MMM: Multilinguale gegenseitige Verstärkungseffekt-Mischen von Datensätzen & Test mit Großsprachigen Modellen für die Extraktion von Informationen im Open Domain
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

Jul 15

ByChengguang Gan, Qingyu Yin, Xinyang He, Hanjun Wei, Yunhao Liang, Younghun Lim, Shijian Wang, Hexiang Huang, Qinghao Zhang, Shiwen Ni, Tatsunori Mori

Der Mutual Reinforcement Effect (MRE) stellt einen vielversprechenden Ansatz in der Informationsgewinnung und Multitasking-Forschung dar. Dennoch wurde seine Anwendbarkeit aufgrund der ausschließlichen Verfügbarkeit von MRE-Mix-Datensätzen in Japanisch eingeschränkt, was eine umfassende Erforschung durch die globale Forschungsgemeinschaft begrenzt hat. Um diese Einschränkung zu überwinden, führen wir einen Multilingualen MRE-Mix-Datensatz (MMM) ein, der 21 Teildatensätze in Englisch, Japanisch und Chinesisch umfasst. In diesem Paper schlagen wir auch eine Methode zur Datensatzübersetzung vor, die durch Large Language Models (LLMs) unterstützt wird, was die manuelle Annotierungszeit für den Datensatzaufbau erheblich reduziert, indem LLMs genutzt werden, um die originalen japanischen Datensätze zu übersetzen. Darüber hinaus haben wir den Datensatz durch die Integration von Named Entity Recognition (NER) und Satzklassifikationsaufgaben im Open-Domain-Bereich erweitert. Unter Verwendung dieses erweiterten Datensatzes haben wir ein einheitliches Eingabe-Ausgabe-Framework entwickelt, um ein Open-Domain-Informationsgewinnungs-Large-Language-Model (OIELLM) zu trainieren. Das OIELLM-Modell zeigt die Fähigkeit, neuartige MMM-Datensätze effektiv zu verarbeiten und zeigt signifikante Verbesserungen in der Leistung.

LLM-Schaltkreisanalysen sind konsistent über Training und Skala hinweg.
LLM Circuit Analyses Are Consistent Across Training and Scale

Jul 15

ByCurt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

Die meisten derzeit eingesetzten großen Sprachmodelle (LLMs) werden kontinuierlich trainiert oder zusätzlich feinabgestimmt. Im Gegensatz dazu konzentriert sich die meiste Forschung zu den internen Mechanismen von LLMs auf Modelle zu einem Zeitpunkt (dem Ende des Vortrainings), was die Frage aufwirft, ob ihre Ergebnisse auf realen Umgebungen verallgemeinert werden können. Existierende Studien zu Mechanismen über die Zeit konzentrieren sich auf reine Encoder-Modelle oder Spielzeugmodelle, die sich signifikant von den meisten eingesetzten Modellen unterscheiden. In dieser Studie verfolgen wir, wie sich Modellmechanismen, operationalisiert als Schaltkreise, über 300 Milliarden Tokens des Trainings in ausschließlich dekodierenden LLMs entwickeln und verändern, in Modellen mit einer Parameteranzahl von 70 Millionen bis 2,8 Milliarden. Wir stellen fest, dass Aufgabenfähigkeiten und die funktionalen Komponenten, die sie unterstützen, konsistent bei ähnlichen Tokenanzahlen über verschiedene Maßstäbe hinweg entstehen. Darüber hinaus, obwohl solche Komponenten im Laufe der Zeit von verschiedenen Aufmerksamkeitsköpfen implementiert werden können, bleibt der übergreifende Algorithmus, den sie implementieren, bestehen. Überraschenderweise können sowohl diese Algorithmen als auch die Arten von darin involvierten Komponenten über Modellmaßstäbe hinweg repliziert werden. Diese Ergebnisse legen nahe, dass Schaltkreisanalysen, die an kleinen Modellen am Ende des Vortrainings durchgeführt werden, Einblicke liefern können, die auch nach zusätzlichem Vortraining und über Modellmaßstäbe hinweg relevant sind.

Rauschkalibrierung: Plug-and-Play-Inhaltsbewahrung bei der Videoverbesserung unter Verwendung von vorab trainierten Videodiffusionsmodellen
Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models

Jul 14

ByQinyu Yang, Haoxin Chen, Yong Zhang, Menghan Xia, Xiaodong Cun, Zhixun Su, Ying Shan

Um die Qualität synthetisierter Videos zu verbessern, involviert derzeit eine vorherrschende Methode das Neutrainieren eines Experten-Diffusionsmodells und die Implementierung eines Rausch-Entfernung-Prozesses zur Verfeinerung. Trotz der signifikanten Trainingskosten bleibt die Aufrechterhaltung der Konsistenz des Inhalts zwischen den Original- und verbesserten Videos eine große Herausforderung. Um diese Herausforderung anzugehen, schlagen wir eine neuartige Formulierung vor, die sowohl die visuelle Qualität als auch die Konsistenz des Inhalts berücksichtigt. Die Konsistenz des Inhalts wird durch eine vorgeschlagene Verlustfunktion sichergestellt, die die Struktur des Eingangs beibehält, während die visuelle Qualität durch die Nutzung des Rausch-Entfernung-Prozesses vortrainierter Diffusionsmodelle verbessert wird. Um das formulierte Optimierungsproblem anzugehen, haben wir eine Plug-and-Play-Rauschoptimierungsstrategie entwickelt, die als Rauschkalibrierung bezeichnet wird. Durch die Verfeinerung des anfänglichen zufälligen Rauschens über einige Iterationen hinweg kann der Inhalt des Originalvideos weitgehend erhalten bleiben, und der Verbesserungseffekt zeigt eine bemerkenswerte Verbesserung. Umfangreiche Experimente haben die Wirksamkeit der vorgeschlagenen Methode gezeigt.

Spider2-V: Wie weit sind multimodale Agenten von der Automatisierung von Datenwissenschafts- und Ingenieur-Workflows entfernt?
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Jul 15