HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

14 papers found

Qwen2.5-1M Technischer Bericht
Qwen2.5-1M Technical Report

Jan 26

ByAn Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang

Wir stellen Qwen2.5-1M vor, eine Serie von Modellen, die die Kontextlänge auf 1 Million Tokens erweitern. Im Vergleich zur vorherigen 128K-Version weisen die Qwen2.5-1M-Modelle signifikant verbesserte Fähigkeiten im Umgang mit langem Kontext auf, durch Vor- und Nachtraining mit langem Kontext. Schlüsseltechniken wie die Synthese langer Daten, progressives Vortraining und mehrstufiges überwachtes Feintuning werden eingesetzt, um die Leistung im Umgang mit langem Kontext effektiv zu verbessern und gleichzeitig die Trainingskosten zu reduzieren. Um den Einsatz von Modellen mit langem Kontext in einem breiteren Nutzerkreis zu fördern, präsentieren wir unser Inferenz-Framework als Open Source. Dieses Framework beinhaltet eine Längenextrapolationsmethode, die die Modellkontextlängen um mindestens das Vierfache oder sogar mehr ohne zusätzliches Training erweitern kann. Zur Reduzierung der Inferenzkosten implementieren wir eine Methode für spärliche Aufmerksamkeit zusammen mit optimierter vorausgefüllter Chunkung für Einsatzszenarien und eine Methode zur Sparsamkeitsverfeinerung zur Verbesserung der Präzision. Darüber hinaus erläutern wir unsere Optimierungen im Inferenz-Engine, einschließlich Kernel-Optimierung, Pipeline-Parallelität und Zeitplanoptimierung, die die Gesamtinferenzleistung signifikant verbessern. Durch die Nutzung unseres Inferenz-Frameworks erreichen die Qwen2.5-1M-Modelle eine bemerkenswerte 3- bis 7-fache Beschleunigung bei der Vorausfüllung in Szenarien mit 1 Million Tokens im Kontext. Dieses Framework bietet eine effiziente und leistungsstarke Lösung für die Entwicklung von Anwendungen, die die Verarbeitung von langem Kontext unter Verwendung von Open-Source-Modellen erfordern. Die Qwen2.5-1M-Serie umfasst derzeit die Open-Source-Modelle Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M sowie das API-zugängliche Modell Qwen2.5-Turbo. Evaluierungen zeigen, dass die Qwen2.5-1M-Modelle in langen Kontextaufgaben erheblich verbessert wurden, ohne die Leistung in Szenarien mit kurzem Kontext zu beeinträchtigen. Insbesondere übertrifft das Qwen2.5-14B-Instruct-1M-Modell signifikant das GPT-4o-mini in langen Kontextaufgaben und unterstützt achtmal längere Kontexte.

Technischer Bericht zu Baichuan-Omni-1.5
Baichuan-Omni-1.5 Technical Report

Jan 26

ByYadong Li, Jun Liu, Tao Zhang, Tao Zhang, Song Chen, Tianpeng Li, Zehuan Li, Lijun Liu, Lingfeng Ming, Guosheng Dong, Da Pan, Chong Li, Yuanbo Fang, Dongdong Kuang, Mingrui Wang, Chenglin Zhu, Youwei Zhang, Hongyu Guo, Fengyu Zhang, Yuran Wang, Bowen Ding, Wei Song, Xu Li, Yuqi Huo, Zheng Liang, Shusen Zhang, Xin Wu, Shuai Zhao, Linchu Xiong, Yozhen Wu, Jiahui Ye, Wenhao Lu, Bowen Li, Yan Zhang, Yaqi Zhou, Xin Chen, Lei Su, Hongda Zhang, Fuzhong Chen, Xuezhen Dong, Na Nie, Zhiying Wu, Bin Xiao, Ting Li, Shunya Dang, Ping Zhang, Yijia Sun, Jincheng Wu, Jinjie Yang, Xionghai Lin, Zhi Ma, Kegeng Wu, Jia li, Aiyuan Yang, Hui Liu, Jianqiang Zhang, Xiaoxi Chen, Guangwei Ai, Wentao Zhang, Yicong Chen, Xiaoqin Huang, Kun Li, Wenjing Luo, Yifei Duan, Lingling Zhu, Ran Xiao, Zhe Su, Jiani Pu, Dian Wang, Xu Jia, Tianyu Zhang, Mengyu Ai, Mang Wang, Yujing Qiao, Lei Zhang, Yanjun Shen, Fan Yang, Miao Zhen, Yijie Zhou, Mingyang Chen, Fei Li, Chenzheng Zhu, Keer Lu, Yaqi Zhao, Hao Liang, Youquan Li, Yanzhao Qin, Linzhuang Sun, Jianhua Xu, Haoze Sun, Mingan Lin, Zenan Zhou, Weipeng Chen

Wir stellen Baichuan-Omni-1.5 vor, ein omni-modales Modell, das nicht nur omni-modale Verständnisfähigkeiten aufweist, sondern auch End-to-End-Audioerzeugungsfähigkeiten bietet. Um eine fließende und hochwertige Interaktion über Modalitäten hinweg zu erreichen, ohne die Fähigkeiten einer Modalität zu beeinträchtigen, haben wir uns darauf konzentriert, drei Schlüsselaspekte zu optimieren. Erstens etablieren wir eine umfassende Datenbereinigungs- und -synthesepipeline für multimodale Daten und erhalten etwa 500B hochwertige Daten (Text, Audio und Vision). Zweitens wurde ein Audio-Tokenizer (Baichuan-Audio-Tokenizer) entwickelt, um sowohl semantische als auch akustische Informationen aus Audio zu erfassen, was eine nahtlose Integration und verbesserte Kompatibilität mit MLLM ermöglicht. Schließlich haben wir eine mehrstufige Schulungsstrategie entworfen, die allmählich multimodale Ausrichtung und Multitask-Feinabstimmung integriert und so eine effektive Synergie über alle Modalitäten hinweg sicherstellt. Baichuan-Omni-1.5 übertrifft zeitgenössische Modelle (einschließlich GPT4o-mini und MiniCPM-o 2.6) in Bezug auf umfassende omni-modale Fähigkeiten. Bemerkenswerterweise erzielt es Ergebnisse, die mit führenden Modellen wie Qwen2-VL-72B vergleichbar sind, über verschiedene multimodale medizinische Benchmarks hinweg.

Auf dem Weg zu einem allgemeinen modellfreien Reinforcement-Learning-Modell
Towards General-Purpose Model-Free Reinforcement Learning

Jan 27

ByScott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat

Das Reinforcement Learning (RL) verspricht einen Rahmen für nahezu universelle Problemlösungen. In der Praxis werden RL-Algorithmen jedoch oft auf spezifische Benchmarks zugeschnitten, die auf sorgfältig abgestimmten Hyperparametern und algorithmischen Entscheidungen beruhen. In letzter Zeit haben leistungsstarke modellbasierte RL-Methoden beeindruckende allgemeine Ergebnisse über Benchmarks gezeigt, jedoch auf Kosten erhöhter Komplexität und langsamer Laufzeiten, was ihre breitere Anwendbarkeit einschränkt. In diesem Paper versuchen wir, einen vereinheitlichenden modellfreien Deep-RL-Algorithmus zu finden, der eine vielfältige Klasse von Domänen und Problemstellungen adressieren kann. Um dies zu erreichen, nutzen wir modellbasierte Repräsentationen, die die Wertefunktion approximativ linearisieren und dabei von den dichteren Aufgabenzielen profitieren, die von modellbasiertem RL verwendet werden, während wir die mit der Planung oder simulierten Trajektorien verbundenen Kosten vermeiden. Wir evaluieren unseren Algorithmus, MR.Q, an einer Vielzahl von gängigen RL-Benchmarks mit einem einzigen Satz von Hyperparametern und zeigen eine wettbewerbsfähige Leistung gegen domänenspezifische und allgemeine Baselines, was einen konkreten Schritt hin zur Entwicklung von modellfreien Deep-RL-Algorithmen für allgemeine Zwecke darstellt.

ARWKV: Pretraining ist nicht das, was wir brauchen, ein RNN-Aufmerksamkeits-basiertes Sprachmodell, das aus dem Transformer geboren wurde.
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

Jan 26

ByLin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao

Wie bekannt ist, haben hybride quadratische und subquadratische Aufmerksamkeitsmodelle in Multi-Head-Architekturen sowohl Transformer- als auch lineare RNN-Modelle übertroffen, wobei diese Arbeiten sich hauptsächlich auf die Reduzierung der KV-Komplexität und die Verbesserung der Effizienz konzentrieren. Für weitere Forschung zur Ausdrucksstärke stellen wir unsere Serie von Modellen vor, die aus Qwen 2.5 destilliert wurden, basierend auf rein nativer RWKV-7-Aufmerksamkeit, die darauf abzielt, RNN ausdrucksstärker zu machen und eine Zustandsverfolgungsfähigkeit jenseits der Transformer zu demonstrieren. Wir arbeiten mit QRWK 32B basierend auf der RWKV-6-Architektur, einem weiteren Ansatz, der die gesamte Wissensverarbeitungszeit auf nur 8 Stunden reduziert, indem 16 AMD MI300X-GPUs verwendet werden, während die Leistung von Qwen 2.5 beibehalten wird. Tatsächlich kann der Destillationsprozess jedes LLM nutzen, nicht nur Qwen, und ermöglicht den Wissenstransfer von größeren LLMs zu kleineren mit weniger Tokens. Wir werden den detaillierten Prozess erläutern und unsere Erkenntnisse zum Aufbau leistungsstärkerer Grundlagenmodelle teilen. Bitte beachten Sie, dass es sich um eine laufende Arbeit handelt, die kontinuierlich aktualisiert wird. Die Modell-Checkpoints und der Quellcode sind verfügbar unter https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.

Emilia: Ein umfangreiches, umfassendes, mehrsprachiges und vielfältiges Datenset für die Spracherzeugung
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation

Jan 27

ByHaorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu

Die jüngsten Fortschritte in der Spracherzeugung wurden durch die groß angelegten Trainingsdatensätze vorangetrieben. Allerdings sind aktuelle Modelle nicht in der Lage, die Spontaneität und Variabilität, die in der menschlichen Sprache der realen Welt inhärent sind, vollständig zu erfassen, da sie sich auf Hörbuchdatensätze beschränken, die auf formelle Vorlesestile beschränkt sind. Um diese Lücke zu überbrücken, stellen wir Emilia-Pipe vor, eine Open-Source-Vorverarbeitungspipeline zur Extraktion hochwertiger Trainingsdaten aus wertvollen, aber bisher unerforschten Daten aus freier Wildbahn, die spontane menschliche Sprache in realen Kontexten erfassen. Durch die Nutzung von Emilia-Pipe erstellen wir Emilia, den ersten mehrsprachigen Spracherzeugungsdatensatz, der aus Daten spontaner Sprache aus freier Wildbahn abgeleitet ist. Dieser Datensatz umfasst über 101.000 Stunden Sprache in sechs Sprachen: Englisch, Chinesisch, Deutsch, Französisch, Japanisch und Koreanisch. Darüber hinaus erweitern wir Emilia zu Emilia-Large, einem Datensatz von über 216.000 Stunden, der ihn zum größten Open-Source-Spracherzeugungsdatensatz macht. Umfangreiche Experimente zeigen, dass Emilia signifikant besser abschneidet als traditionelle Hörbuchdatensätze bei der Erzeugung spontaner und menschenähnlicher Sprache und eine überlegene Leistung bei der Erfassung verschiedener Sprecherstimmen und Sprechstilen der menschlichen Sprache der realen Welt zeigt. Darüber hinaus unterstreibt diese Arbeit die Bedeutung der Skalierung der Datensatzgröße zur Förderung der Spracherzeugungsforschung und bestätigt die Wirksamkeit von Emilia sowohl für mehrsprachige als auch für überlinguale Spracherzeugung.

iFormer: Integration von ConvNet und Transformer für mobile Anwendungen
iFormer: Integrating ConvNet and Transformer for Mobile Application

Jan 26

ByChuanyang Zheng

Wir präsentieren eine neue Familie von mobilen hybriden Vision-Netzwerken, genannt iFormer, mit dem Schwerpunkt auf der Optimierung von Latenz und Genauigkeit bei mobilen Anwendungen. iFormer integriert effektiv die schnelle lokale Repräsentationskapazität von Faltungen mit der effizienten globalen Modellierungsfähigkeit von Selbst-Aufmerksamkeit. Die lokalen Interaktionen werden durch die Umwandlung eines Standard-Faltungsnetzwerks, d.h. ConvNeXt, abgeleitet, um ein leichteres mobiles Netzwerk zu entwerfen. Unsere neu eingeführte mobile Modulationsaufmerksamkeit entfernt speicherintensive Operationen in MHA und verwendet einen effizienten Modulationsmechanismus, um die dynamische globale Repräsentationskapazität zu steigern. Wir führen umfassende Experimente durch, die zeigen, dass iFormer bestehende leichte Netzwerke in verschiedenen Aufgaben übertrifft. Insbesondere erreicht iFormer eine beeindruckende Top-1 Genauigkeit von 80,4\% auf ImageNet-1k mit einer Latenz von nur 1,10 ms auf einem iPhone 13 und übertrifft dabei die kürzlich vorgeschlagene MobileNetV4 unter ähnlichen Latenzbeschränkungen. Darüber hinaus zeigt unsere Methode signifikante Verbesserungen in nachgelagerten Aufgaben, einschließlich COCO-Objekterkennung, Instanzsegmentierung und ADE20k semantischer Segmentierung, während sie gleichzeitig eine niedrige Latenz auf mobilen Geräten für hochauflösende Eingaben in diesen Szenarien beibehält.

Parameter vs. FLOPs: Skalierungsgesetze für optimale Sparsamkeit für Mixture-of-Experts Sprachmodelle
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

Jan 21

BySamira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak

Das Skalieren der Kapazität von Sprachmodellen hat sich als zuverlässiger Ansatz zur Verbesserung der Leistung und Erschließung neuer Fähigkeiten erwiesen. Kapazität kann hauptsächlich durch zwei Dimensionen definiert werden: die Anzahl der Modellparameter und die Berechnung pro Beispiel. Während das Skalieren in der Regel eine Erhöhung beider Dimensionen beinhaltet, ist das genaue Zusammenspiel zwischen diesen Faktoren und ihr kombinierter Beitrag zur Gesamtkapazität noch nicht vollständig verstanden. Wir untersuchen diese Beziehung im Kontext von spärlichen Mixture-of-Experts (MoEs), die es ermöglichen, die Anzahl der Parameter zu skalieren, ohne die FLOPs pro Beispiel proportional zu erhöhen. Wir untersuchen, wie das Variieren des Sparsamkeitsniveaus, d.h. des Anteils inaktiver Parameter, die Leistung des Modells während des Pretrainings und der nachgelagerten Few-Shot-Bewertung beeinflusst. Wir stellen fest, dass es unter verschiedenen Einschränkungen (z. B. Parametergröße und Gesamttrainingsberechnung) ein optimales Sparsamkeitsniveau gibt, das sowohl die Trainingseffizienz als auch die Modellleistung verbessert. Diese Ergebnisse ermöglichen ein besseres Verständnis der Auswirkungen von Sparsamkeit in Skalierungsgesetzen für MoEs und ergänzen bestehende Arbeiten in diesem Bereich, indem sie Einblicke für die Gestaltung effizienterer Architekturen bieten.

CodeMonkeys: Skalierung der Rechenleistung zur Testzeit für Softwaretechnik
CodeMonkeys: Scaling Test-Time Compute for Software Engineering

Jan 24

ByRyan Ehrlich, Bradley Brown, Jordan Juravsky, Ronald Clark, Christopher Ré, Azalia Mirhoseini

Die Skalierung der Rechenleistung zur Testzeit ist eine vielversprechende Möglichkeit, um die Fähigkeiten von LLM zu verbessern. Allerdings kann die Rechenleistung zur Testzeit auf verschiedene Weisen skaliert werden, und die effektive Kombination verschiedener Ansätze bleibt ein aktives Forschungsgebiet. Hier untersuchen wir dieses Problem im Kontext der Lösung realer GitHub-Probleme aus dem SWE-bench-Datensatz. Unser System, namens CodeMonkeys, ermöglicht es Modellen, iterativ eine Codebasis zu bearbeiten, indem sie gemeinsam ein Testskript generieren und ausführen, neben ihrer Entwurfsbearbeitung. Wir sampeln viele dieser Multi-Turn-Trajektorien für jedes Problem, um eine Sammlung von Kandidatenbearbeitungen zu generieren. Dieser Ansatz ermöglicht es uns, die "serielle" Rechenleistung zur Testzeit zu skalieren, indem wir die Anzahl der Iterationen pro Trajektorie erhöhen, und die "parallele" Rechenleistung zur Testzeit zu skalieren, indem wir die Anzahl der Trajektorien pro Problem erhöhen. Mit paralleler Skalierung können wir Anfangskosten über mehrere nachgelagerte Proben amortisieren, was es uns ermöglicht, relevante Codebasis-Kontexte zu identifizieren, indem wir einem LLM einfach erlauben, jede Datei zu lesen. Um zwischen Kandidatenbearbeitungen auszuwählen, kombinieren wir Abstimmungen unter Verwendung von modellgenerierten Tests mit einer abschließenden Multi-Turn-Trajektorie, die der Auswahl gewidmet ist. Insgesamt löst CodeMonkeys 57,4% der Probleme aus SWE-bench Verified mit einem Budget von ungefähr 2300 USD. Unsere Auswahlmethode kann auch verwendet werden, um Kandidaten aus verschiedenen Quellen zu kombinieren. Die Auswahl über ein Ensemble von Bearbeitungen aus bestehenden Top-SWE-bench-Verified-Einreichungen erzielt eine Punktzahl von 66,2% und übertrifft das beste Mitglied des Ensembles allein. Wir veröffentlichen unseren Code und unsere Daten vollständig unter https://scalingintelligence.stanford.edu/pubs/codemonkeys.

Sind Vision Language Models textur- oder formorientiert und können wir sie lenken?
Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

Mar 14

ByPaul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanzeb Mirza, Margret Keuper, Janis Keuper

Vision Language Models (VLMs) haben in nur wenigen Jahren drastisch die Modelllandschaft der Computer Vision verändert und eine spannende Vielfalt neuer Anwendungen eröffnet, von der Zero-Shot-Bildklassifizierung über die Bildbeschreibung bis hin zur visuellen Fragebeantwortung. Im Gegensatz zu reinen Vision-Modellen bieten sie einen intuitiven Zugang zu visuellen Inhalten durch sprachliche Eingaben. Die breite Anwendbarkeit solcher Modelle regt uns dazu an zu fragen, ob sie auch mit der menschlichen Vision übereinstimmen - insbesondere, inwieweit sie menschlich induzierte visuelle Vorurteile durch multimodale Fusion übernehmen oder ob sie einfach Vorurteile von reinen Vision-Modellen erben. Ein wichtiger visueller Vorurteil ist das Textur-gegen-Form-Vorurteil oder die Dominanz lokaler gegenüber globaler Informationen. In dieser Arbeit untersuchen wir dieses Vorurteil in einer Vielzahl beliebter VLMs. Interessanterweise stellen wir fest, dass VLMs oft stärker formorientiert sind als ihre Vision-Encoder, was darauf hindeutet, dass visuelle Vorurteile in multimodalen Modellen in gewissem Maße durch Text moduliert werden. Wenn Text tatsächlich visuelle Vorurteile beeinflusst, legt dies nahe, dass wir visuelle Vorurteile nicht nur durch visuelle Eingaben, sondern auch durch Sprache steuern können: eine Hypothese, die wir durch umfangreiche Experimente bestätigen. Beispielsweise können wir das Formvorurteil allein durch Eingabeaufforderungen von so niedrig wie 49% auf so hoch wie 72% lenken. Der starke menschliche Vorurteil gegenüber Form (96%) bleibt jedoch für alle getesteten VLMs vorerst unerreichbar.

Mischung aus Mamba: Verbesserung von Multi-Modalen Zustandsraummodellen durch modalitätsbewusste Sparsamkeit
Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity

Jan 27

ByWeixin Liang, Junhong Shen, Genghan Zhang, Ning Dong, Luke Zettlemoyer, Lili Yu

Zustandsraummodelle (SSMs) haben sich als effiziente Alternativen zu Transformatoren für die sequenzielle Modellierung herausgestellt, aber ihre Unfähigkeit, modalitätsspezifische Merkmale zu nutzen, begrenzt ihre Leistungsfähigkeit beim multimodalen Pretraining. Hier schlagen wir Mixture-of-Mamba vor, eine neuartige SSM-Architektur, die modalitätsspezifische Sparsamkeit durch die modalitätsspezifische Parametrisierung des Mamba-Blocks einführt. Aufbauend auf Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996; 2024) erweitern wir die Vorteile der modalitätsspezifischen Sparsamkeit auf SSMs und bewahren gleichzeitig ihre Rechenleistung. Wir evaluieren Mixture-of-Mamba in drei multimodalen Pretraining-Szenarien: Transfusion (abwechselnde Text- und kontinuierliche Bild-Token mit Diffusionsverlust), Chameleon (abwechselnde Text- und diskrete Bild-Token) und einem erweiterten dreimodalen Framework, das Sprache integriert. Mixture-of-Mamba erreicht konsistent die gleichen Verlustwerte in früheren Trainingsschritten bei signifikant reduzierten Rechenkosten. Im Transfusion-Szenario erzielt Mixture-of-Mamba mit nur 34,76 % der Trainings-FLOPs im Maßstab von 1,4 Mrd. äquivalente Bildverluste. Im Chameleon-Szenario erreicht Mixture-of-Mamba ähnliche Bildverluste mit nur 42,50 % der FLOPs im Maßstab von 1,4 Mrd. und ähnliche Textverluste mit nur 65,40 % der FLOPs. Im dreimodalen Szenario erreicht MoM Sprachverluste bei 24,80 % der FLOPs im Maßstab von 1,4 Mrd. Unsere Ablationsstudie hebt die synergistischen Effekte der Entkopplung von Projektionskomponenten hervor, wobei die gemeinsame Entkopplung größere Gewinne bringt als einzelne Modifikationen. Diese Ergebnisse etablieren modalitätsspezifische Sparsamkeit als vielseitiges und effektives Designprinzip, das ihre Auswirkungen von Transformatoren auf SSMs ausweitet und neue Maßstäbe im multimodalen Pretraining setzt. Unser Code ist unter https://github.com/Weixin-Liang/Mixture-of-Mamba verfügbar.

Visuelle Generierung ohne Anleitung.
Visual Generation Without Guidance

Jan 26

ByHuayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu

Classifier-Free Guidance (CFG) ist eine Standardtechnik in verschiedenen visuellen generativen Modellen, erfordert jedoch Inferenz von sowohl bedingten als auch unbedingten Modellen während der Stichprobenahme. Wir schlagen vor, visuelle Modelle aufzubauen, die frei von geführter Stichprobenahme sind. Der resultierende Algorithmus, Guidance-Free Training (GFT), erreicht die Leistung von CFG, während die Stichprobenahme auf ein einziges Modell reduziert wird und die Rechenkosten halbiert werden. Im Gegensatz zu früheren distillationsbasierten Ansätzen, die auf vortrainierten CFG-Netzwerken beruhen, ermöglicht es GFT, direkt von Grund auf zu trainieren. GFT ist einfach zu implementieren. Es behält das gleiche Maximum-Likelihood-Ziel wie CFG bei und unterscheidet sich hauptsächlich in der Parametrisierung der bedingten Modelle. Die Implementierung von GFT erfordert nur minimale Änderungen an bestehenden Codebasen, da die meisten Designentscheidungen und Hyperparameter direkt von CFG übernommen werden. Unsere umfangreichen Experimente mit fünf verschiedenen visuellen Modellen zeigen die Wirksamkeit und Vielseitigkeit von GFT. Über verschiedene Bereiche der Diffusion, autoregressiven und maskierten Vorhersagemodellierung hinweg erzielt GFT konsistent vergleichbare oder sogar niedrigere FID-Werte, bei ähnlichen Diversitäts-Fidelitäts-Abwägungen im Vergleich zu CFG-Baselines, und das alles ohne Anleitung. Der Code wird unter https://github.com/thu-ml/GFT verfügbar sein.

OpenCharacter: Training von anpassbaren Rollenspiel-LLMs mit groß angelegten synthetischen Persönlichkeiten.
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

Jan 26

ByXiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu

Die anpassbare Rollenspielfähigkeit in großen Sprachmodellen (LLMs), auch als Charakterverallgemeinerung bekannt, gewinnt zunehmend an Aufmerksamkeit aufgrund ihrer Vielseitigkeit und Kosteneffizienz bei der Entwicklung und Bereitstellung von Rollenspiel-Dialogagenten. Diese Studie untersucht einen datengesteuerten Ansatz im großen Maßstab, um LLMs mit Charakterverallgemeinerungsfähigkeiten auszustatten. Wir beginnen mit der Synthese von umfangreichen Charakterprofilen unter Verwendung von Persönlichkeiten aus dem Persona Hub und untersuchen dann zwei Strategien: Antwortumschreibung und Antwortgenerierung, um charakterausgerichtete instruktive Antworten zu erstellen. Zur Validierung der Effektivität unserer synthetischen Anleitungstuning-Daten für die Charakterverallgemeinerung führen wir ein überwachtes Feintuning (SFT) unter Verwendung des LLaMA-3 8B-Modells durch. Unser leistungsstärkstes Modell stärkt das ursprüngliche LLaMA-3 8B Instruct-Modell und erzielt eine Leistung, die mit der von GPT-4o-Modellen bei Rollenspiel-Dialogen vergleichbar ist. Wir veröffentlichen unsere synthetischen Charaktere und Anleitungstuning-Dialoge, um die öffentliche Forschung zu unterstützen.

Rückkehr des Encoders: Maximierung der Parameter-Effizienz für Sprachmodellierungsmodelle
Return of the Encoder: Maximizing Parameter Efficiency for SLMs

Jan 27

ByMohamed Elfeki, Rui Liu, Chad Voegele

Die Dominanz großer Decoder-Only-Sprachmodelle hat die Encoder-Decoder-Architekturen in den Hintergrund gedrängt, obwohl diese grundlegende Effizienzvorteile bei der Sequenzverarbeitung bieten. Für kleine Sprachmodelle (SLMs) - solche mit 1 Milliarde Parametern oder weniger - zeigt unsere systematische Analyse über GPU-, CPU- und NPU-Plattformen, dass Encoder-Decoder-Architekturen im Vergleich zu reinen Decoder-Modellen auf Edge-Geräten eine um 47 % niedrigere Latenz des ersten Tokens und eine 4,7-fach höhere Durchsatzrate erzielen. Diese Gewinne können auf die einmalige Eingangsverarbeitung und die effiziente Trennung von Verstehens- und Generierungsphasen des Encoder-Decoders zurückgeführt werden. Wir stellen ein neuartiges Wissensvermittlungsframework vor, das es Encoder-Decoder-Modellen ermöglicht, die Fähigkeiten großer skalierbarer Decoder-Only-Lehrer zu nutzen, während sie ihre architektonischen Vorteile bewahren. Dies führt zu einer durchschnittlichen Leistungsverbesserung von bis zu 6 Punkten über verschiedene Aufgaben hinweg, mit signifikanten Gewinnen bei asymmetrischen Sequenzaufgaben, bei denen Eingabe- und Ausgabeverteilungen von unterschiedlichen Verarbeitungsansätzen profitieren können. In Kombination mit modernen Fortschritten wie Rotierenden Positionalen Einbettungen (RoPE) und Vision-Encodern zeigt unsere systematische Untersuchung, dass Encoder-Decoder-Architekturen einen praktischeren Weg zur Bereitstellung leistungsfähiger Sprachmodelle in ressourcenbeschränkten Umgebungen bieten. Unsere Ergebnisse stellen den vorherrschenden Trend zur reinen Decoder-Skalierung in Frage und zeigen, dass architektonische Entscheidungen mit abnehmenden Parameterbudgets zunehmend entscheidend werden, insbesondere für On-Device- und Edge-Bereitstellungen, bei denen die Recheneffizienz oberste Priorität hat.

Machbares Lernen
Feasible Learning

Jan 24

ByJuan Ramirez, Ignacio Hounie, Juan Elenter, Jose Gallego-Posada, Meraj Hashemizadeh, Alejandro Ribeiro, Simon Lacoste-Julien

Wir stellen das Konzept des Durchführbaren Lernens (Feasible Learning, FL) vor, ein probenzentrierter Lernparadigma, bei dem Modelle trainiert werden, indem ein Machbarkeitsproblem gelöst wird, das den Verlust für jede Trainingsprobe begrenzt. Im Gegensatz zum allgegenwärtigen Rahmen des Empirischen Risikominimierung (Empirical Risk Minimization, ERM), der auf durchschnittliche Leistung optimiert, verlangt FL eine zufriedenstellende Leistung für jeden einzelnen Datenpunkt. Da jedes Modell, das den vorgeschriebenen Leistungsstandard erfüllt, eine gültige FL-Lösung ist, spielt die Wahl des Optimierungsalgorithmus und seine Dynamik eine entscheidende Rolle bei der Gestaltung der Eigenschaften der resultierenden Lösungen. Insbesondere untersuchen wir einen primal-dualen Ansatz, der während des Trainings dynamisch die Bedeutung jeder Probe neu gewichtet. Um die Herausforderung der Festlegung eines sinnvollen Schwellenwerts in der Praxis zu bewältigen, führen wir eine Relaxation von FL ein, die Schlupfvariablen minimaler Norm einbezieht. Unsere empirische Analyse, die Bildklassifizierung, Altersregression und Präferenzoptimierung in großen Sprachmodellen umfasst, zeigt, dass Modelle, die über FL trainiert wurden, aus Daten lernen können, während sie im Vergleich zu ERM ein verbessertes Schwanzverhalten aufweisen, bei nur einem geringfügigen Einfluss auf die durchschnittliche Leistung.

Qwen2.5-1M Technischer Bericht
Qwen2.5-1M Technical Report

Jan 26