KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Aya-Modell: Ein instruktionsfeinabgestimmtes, frei zugängliches mehrsprachiges Sprachmodell
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Feb 12, 2024

Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker

492

Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) konzentrierten sich auf eine Handvoll datenreicher Sprachen. Was ist nötig, um den Zugang zu diesen Fortschritten über die Sprachen der „ersten Klasse“ hinaus zu erweitern? Unsere Arbeit stellt Aya vor, ein massiv mehrsprachiges generatives Sprachmodell, das Anweisungen in 101 Sprachen befolgt, von denen über 50 % als ressourcenarm gelten. Aya übertrifft mT0 und BLOOMZ bei der Mehrheit der Aufgaben und deckt dabei doppelt so viele Sprachen ab. Wir führen umfangreiche neue Evaluationssuiten ein, die den Stand der Technik für mehrsprachige Bewertungen über 99 Sprachen erweitern – einschließlich diskriminativer und generativer Aufgaben, menschlicher Bewertungen und simulierter Gewinnraten, die sowohl zurückgehaltene Aufgaben als auch In-Distribution-Leistungen abdecken. Darüber hinaus führen wir detaillierte Untersuchungen zur optimalen Zusammensetzung der Feinabstimmungsmischung, zur Datenbereinigung sowie zur Toxizität, Voreingenommenheit und Sicherheit unserer Modelle durch. Wir stellen unsere Instruktionsdatensätze und unser Modell unter https://hf.co/CohereForAI/aya-101 als Open Source zur Verfügung.

OS-Copilot: Auf dem Weg zu universellen Computeragenten mit Selbstverbesserung
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Feb 12, 2024

Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong

464

Die autonome Interaktion mit dem Computer stellt seit langem eine Herausforderung mit großem Potenzial dar, und die jüngste Verbreitung von großen Sprachmodellen (LLMs) hat den Fortschritt beim Aufbau digitaler Agenten deutlich beschleunigt. Die meisten dieser Agenten sind jedoch darauf ausgelegt, mit einem eng begrenzten Bereich zu interagieren, wie beispielsweise einer bestimmten Software oder Website. Dieser enge Fokus schränkt ihre Anwendbarkeit für allgemeine Computeraufgaben ein. Aus diesem Grund stellen wir OS-Copilot vor, ein Framework zur Entwicklung von Generalisten-Agenten, die in der Lage sind, mit umfassenden Elementen eines Betriebssystems (OS) zu interagieren, einschließlich des Webs, Code-Terminals, Dateien, Multimedia und verschiedener Drittanbieteranwendungen. Wir verwenden OS-Copilot, um FRIDAY zu erstellen, einen sich selbst verbessernden, verkörperten Agenten zur Automatisierung allgemeiner Computeraufgaben. Auf GAIA, einem Benchmark für allgemeine KI-Assistenten, übertrifft FRIDAY bisherige Methoden um 35 % und zeigt eine starke Generalisierung auf unbekannte Anwendungen durch die Akkumulation von Fähigkeiten aus vorherigen Aufgaben. Wir präsentieren auch numerische und quantitative Belege dafür, dass FRIDAY lernt, Excel und Powerpoint mit minimaler Aufsicht zu steuern und sich selbst zu verbessern. Unser OS-Copilot-Framework und die empirischen Erkenntnisse bieten Infrastruktur und Einblicke für zukünftige Forschungen hin zu leistungsfähigeren und allgemeineren Computeragenten.

ChemLLM: Ein chemisches Großsprachmodell
ChemLLM: A Chemical Large Language Model

Feb 10, 2024

Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang

317

Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte in chemischen Anwendungen erzielt, einschließlich der Vorhersage molekularer Eigenschaften, der Molekülgenerierung und dem Design experimenteller Protokolle. Dennoch fehlt der Gemeinschaft ein dialogbasiertes Modell, das speziell für die Chemie entwickelt wurde. Die Herausforderung besteht darin, dass die meisten chemischen Daten und wissenschaftlichen Erkenntnisse hauptsächlich in strukturierten Datenbanken gespeichert sind, und die direkte Nutzung dieser strukturierten Daten beeinträchtigt die Fähigkeit des Modells, kohärente Dialoge zu führen. Um dieses Problem zu lösen, entwickeln wir eine neuartige, vorlagenbasierte Methode zur Instruktionskonstruktion, die strukturiertes Wissen in einfache Dialoge umwandelt und so für das Training von Sprachmodellen geeignet macht. Mit diesem Ansatz entwickeln wir ChemLLM, das erste große Sprachmodell, das speziell für die Chemie entwickelt wurde und in der Lage ist, verschiedene Aufgaben über chemische Disziplinen hinweg mit flüssiger Dialoginteraktion zu bewältigen. ChemLLM übertrifft GPT-3.5 bei allen drei Hauptaufgaben in der Chemie, nämlich Namenskonvertierung, Molekülbeschreibung und Reaktionsvorhersage, und übertrifft GPT-4 bei zwei davon. Bemerkenswerterweise zeigt ChemLLM auch eine außergewöhnliche Anpassungsfähigkeit an verwandte mathematische und physikalische Aufgaben, obwohl es hauptsächlich auf chemiezentrierten Korpora trainiert wurde. Darüber hinaus demonstriert ChemLLM Kompetenz in spezialisierten NLP-Aufgaben innerhalb der Chemie, wie Literaturübersetzung und cheminformatischer Programmierung. ChemLLM eröffnet neue Wege für die Erforschung chemischer Studien, während unsere Methode zur Integration strukturierten chemischen Wissens in Dialogsysteme eine neue Grenze für die Entwicklung von LLMs in verschiedenen wissenschaftlichen Bereichen setzt. Codes, Datensätze und Modellgewichte sind öffentlich zugänglich unter hf.co/AI4Chem/ChemLLM-7B-Chat.

Fiddler: CPU-GPU-Orchestrierung für schnelle Inferenz von Mixture-of-Experts-Modellen
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Feb 10, 2024

Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci

171

Große Sprachmodelle (LLMs), die auf der Mixture-of-Experts (MoE)-Architektur basieren, zeigen vielversprechende Leistungen bei verschiedenen Aufgaben. Allerdings ist ihr Einsatz in ressourcenbeschränkten Umgebungen, in denen GPU-Speicherressourcen knapp sind, aufgrund der enormen Modellgrößen eine Herausforderung. Bestehende Systeme, die Modellgewichte in den CPU-Speicher auslagern, leiden unter dem erheblichen Overhead durch den häufigen Datentransfer zwischen CPU und GPU. In diesem Artikel stellen wir Fiddler vor, eine ressourceneffiziente Inferenz-Engine mit CPU-GPU-Orchestrierung für MoE-Modelle. Der Kernansatz von Fiddler besteht darin, die Rechenleistung der CPU zu nutzen, um den Datentransfer zwischen CPU und GPU zu minimieren. Unsere Auswertungen zeigen, dass Fiddler das unkomprimierte Mixtral-8x7B-Modell, das über 90 GB Parameter umfasst, mit einer Geschwindigkeit von mehr als 3 Tokens pro Sekunde auf einer einzelnen GPU mit 24 GB Speicher ausführen kann, was eine Größenordnung an Verbesserung gegenüber bestehenden Methoden darstellt. Der Code von Fiddler ist öffentlich verfügbar unter https://github.com/efeslab/fiddler.

PIVOT: Iteratives visuelles Prompting generiert umsetzbares Wissen für VLMs
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Feb 12, 2024

Soroush Nasiriany, Fei Xia, Wenhao Yu, Ted Xiao, Jacky Liang, Ishita Dasgupta, Annie Xie, Danny Driess, Ayzaan Wahid, Zhuo Xu, Quan Vuong, Tingnan Zhang, Tsang-Wei Edward Lee, Kuang-Huei Lee, Peng Xu, Sean Kirmani, Yuke Zhu, Andy Zeng, Karol Hausman, Nicolas Heess, Chelsea Finn, Sergey Levine, Brian Ichter

162

Vision Language Models (VLMs) haben beeindruckende Fähigkeiten in einer Vielzahl von Aufgaben gezeigt, von logischem Denken bis hin zu visuellem Verständnis. Dies eröffnet die Möglichkeit für eine reichhaltigere Interaktion mit der Welt, beispielsweise in der Robotersteuerung. Allerdings erzeugen VLMs nur textuelle Ausgaben, während Robotersteuerung und andere räumliche Aufgaben die Ausgabe kontinuierlicher Koordinaten, Aktionen oder Trajektorien erfordern. Wie können wir VLMs ermöglichen, solche Anwendungen zu bewältigen, ohne sie auf aufgabenspezifische Daten feinzutunen? In diesem Artikel schlagen wir einen neuartigen visuellen Prompting-Ansatz für VLMs vor, den wir Prompting with Iterative Visual Optimization (PIVOT) nennen. Dieser Ansatz formuliert Aufgaben als iteratives visuelles Frage-Antworten. In jeder Iteration wird das Bild mit einer visuellen Darstellung von Vorschlägen annotiert, auf die sich das VLM beziehen kann (z. B. mögliche Roboteraktionen, Lokalisierungen oder Trajektorien). Das VLM wählt dann die besten Vorschläge für die Aufgabe aus. Diese Vorschläge werden iterativ verfeinert, sodass das VLM schließlich die beste verfügbare Antwort finden kann. Wir untersuchen PIVOT in realen Anwendungen wie der Roboter-Navigation, der Manipulation in der realen Welt anhand von Bildern, der Befolgung von Anweisungen in der Simulation sowie zusätzlichen räumlichen Inferenzaufgaben wie der Lokalisierung. Überraschenderweise stellen wir fest, dass unser Ansatz die Null-Shot-Steuerung von Robotersystemen ohne jegliche Roboter-Trainingsdaten, die Navigation in verschiedenen Umgebungen und weitere Fähigkeiten ermöglicht. Obwohl die derzeitige Leistung noch weit von perfekt entfernt ist, hebt unsere Arbeit die Potenziale und Grenzen dieses neuen Ansatzes hervor und zeigt einen vielversprechenden Weg für Internet-Scale VLMs in den Bereichen Robotik und räumlichem Denken. Website: pivot-prompt.github.io und HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.

Flow-Matching-basierte Zero-Shot Text-to-Speech-Systeme zum Lachen bringen, wie Sie es möchten
Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Feb 12, 2024

Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng

161

Lachen ist einer der ausdrucksstärksten und natürlichsten Aspekte der menschlichen Sprache, der Emotionen, soziale Signale und Humor vermittelt. Die meisten Text-zu-Sprache (TTS)-Systeme sind jedoch nicht in der Lage, realistische und angemessene Lachen zu erzeugen, was ihre Anwendungsmöglichkeiten und das Nutzererlebnis einschränkt. Obwohl es bereits frühere Arbeiten zur Erzeugung von natürlichem Lachen gab, konnten sie die zeitliche Steuerung und Vielfalt des zu erzeugenden Lachens nicht ausreichend kontrollieren. In dieser Arbeit stellen wir ELaTE vor, ein Zero-Shot-TTS-System, das natürliches lachendes Sprechen für jeden Sprecher auf der Grundlage eines kurzen Audio-Prompts mit präziser Kontrolle über den Zeitpunkt und den Ausdruck des Lachens erzeugen kann. Konkret arbeitet ELaTE mit dem Audio-Prompt, um die Stimmcharakteristik nachzuahmen, dem Text-Prompt, um den Inhalt der erzeugten Sprache anzugeben, und der Eingabe zur Steuerung des Lachens, die entweder die Start- und Endzeiten des Lachens oder ein zusätzliches Audio-Prompt, das Lachen enthält, das nachgeahmt werden soll, sein kann. Wir entwickeln unser Modell auf der Grundlage eines Zero-Shot-TTS-Systems, das auf bedingtem Flow-Matching basiert, und verfeinern es mit einer Frame-Level-Darstellung eines Lachen-Detektors als zusätzliche Bedingung. Mit einem einfachen Schema, das kleinere Mengen von lachbedingten Daten mit umfangreichen Vorab-Trainingsdaten kombiniert, zeigen wir, dass ein vortrainiertes Zero-Shot-TTS-Modell problemlos verfeinert werden kann, um natürliches Lachen mit präziser Steuerbarkeit zu erzeugen, ohne die Qualität des vortrainierten Zero-Shot-TTS-Modells zu beeinträchtigen. Durch die Evaluierungen zeigen wir, dass ELaTE lachende Sprache mit deutlich höherer Qualität und Steuerbarkeit im Vergleich zu herkömmlichen Modellen erzeugen kann. Demo-Beispiele finden Sie unter https://aka.ms/elate/.

Eine Geschichte der Verteilungsenden: Modellkollaps als Veränderung der Skalierungsgesetze
A Tale of Tails: Model Collapse as a Change of Scaling Laws

Feb 10, 2024

Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe

161

Mit zunehmender Größe von KI-Modellen sind neuronale Skalierungsgesetze zu einem entscheidenden Werkzeug geworden, um die Verbesserungen großer Modelle bei der Erhöhung der Kapazität und der Größe der ursprünglichen (menschlichen oder natürlichen) Trainingsdaten vorherzusagen. Doch die weit verbreitete Nutzung populärer Modelle bedeutet, dass das Ökosystem der Online-Daten und Texte sich mitentwickeln wird, um zunehmend größere Mengen an synthetisierten Daten zu enthalten. In diesem Artikel stellen wir die Frage: Wie werden sich die Skalierungsgesetze in dem unvermeidlichen Regime ändern, in dem synthetische Daten ihren Weg in das Trainingskorpus finden? Werden zukünftige Modelle weiterhin Fortschritte machen oder dazu verdammt sein, bis zum vollständigen (Modell-)Kollaps zu degenerieren? Wir entwickeln einen theoretischen Rahmen für den Modellkollaps durch die Linse der Skalierungsgesetze. Wir entdecken eine breite Palette von Zerfallsphänomenen, analysieren den Verlust der Skalierung, verschobene Skalierung mit der Anzahl der Generationen, das „Verlernen“ von Fähigkeiten und das „Grokking“ bei der Vermischung von menschlichen und synthetisierten Daten. Unsere Theorie wird durch groß angelegte Experimente mit einem Transformer bei einer arithmetischen Aufgabe und Textgenerierung unter Verwendung des großen Sprachmodells Llama2 validiert.

Prismatische VLMs: Untersuchung des Designraums visuell konditionierter Sprachmodelle
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

Feb 12, 2024

Siddharth Karamcheti, Suraj Nair, Ashwin Balakrishna, Percy Liang, Thomas Kollar, Dorsa Sadigh

152

Visuell konditionierte Sprachmodelle (VLMs) erfreuen sich zunehmender Verbreitung in Anwendungen wie visuellem Dialog, Szenenverständnis und robotischer Aufgabenplanung; eine Verbreitung, die eine Fülle neuer Modelle wie LLaVa, InstructBLIP und PaLI-3 hervorgebracht hat. Trotz der Vielzahl neuer Veröffentlichungen sind zentrale Designentscheidungen in Bezug auf Bildvorverarbeitung, Architektur und Optimierung untererforscht, was es schwierig macht, die Faktoren zu verstehen, die die Modellleistung beeinflussen – eine Herausforderung, die durch das Fehlen objektiver, konsistenter Bewertungen weiter erschwert wird. Um diese Lücken zu schließen, stellen wir zunächst eine Reihe standardisierter Bewertungen zusammen, die visuelle Fragebeantwortung, Objektlokalisierung aus Sprache und gezielte Herausforderungssets umfassen, die Eigenschaften wie Halluzinationen untersuchen; Bewertungen, die kalibrierte, detaillierte Einblicke in die Fähigkeiten eines VLMs bieten. Zweitens untersuchen wir VLMs entlang zentraler Designachsen, einschließlich vortrainierter visueller Repräsentationen und der Quantifizierung der Kompromisse bei der Verwendung von Basis- gegenüber instruktionsfeinabgestimmten Sprachmodellen, unter anderem. Wir ergänzen unsere Analyse mit drei Ressourcenbeiträgen: (1) ein einheitliches Framework zur Bewertung von VLMs, (2) optimierter, flexibler Code für das Training von VLMs und (3) Checkpoints für alle Modelle, einschließlich einer Familie von VLMs im Maßstab von 7-13B, die InstructBLIP und LLaVa v1.5, den State-of-the-Art in Open-Source-VLMs, klar übertreffen.

AutoMathText: Autonome Datenauswahl mit Sprachmodellen für mathematische Texte
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Feb 12, 2024

Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao

152

Um die Fähigkeiten von Sprachmodellen im mathematischen Denken durch kontinuierliches Vortraining zu verbessern, führen wir eine neuartige Strategie ein, die Basissprachmodelle für die autonome Datenauswahl nutzt. Abweichend von konventionellem überwachtem Feinabstimmen oder trainierten Klassifikatoren mit von Menschen annotierten Daten, verwendet unser Ansatz meta-promptete Sprachmodelle als Zero-Shot-Verifizierer, um eigenständig hochwertige mathematische Inhalte zu bewerten und auszuwählen. Wir veröffentlichen das kuratierte Open-Source-Dataset AutoMathText, das über 200 GB an Daten umfasst. Um die Wirksamkeit unserer Methode zu demonstrieren, haben wir ein 7-Milliarden-Parameter-Mistral-Sprachmodell kontinuierlich auf dem AutoMathText-Dataset vortrainiert und dabei erhebliche Verbesserungen in der nachgelagerten Leistung auf dem MATH-Dataset erzielt, wobei die Tokenmenge im Vergleich zu früheren kontinuierlichen Vortrainingsarbeiten um Größenordnungen reduziert wurde. Unsere Methode zeigt eine 2-fache Steigerung der Vortraining-Token-Effizienz im Vergleich zu Baseline-Methoden, was das Potenzial unseres Ansatzes zur Verbesserung der mathematischen Denkfähigkeiten von Modellen unterstreicht. Das AutoMathText-Dataset ist verfügbar unter https://huggingface.co/datasets/math-ai/AutoMathText. Der Code ist verfügbar unter https://github.com/yifanzhang-pro/AutoMathText.

Skalierungsgesetze für fein abgestimmte Mixture-of-Experts-Modelle
Scaling Laws for Fine-Grained Mixture of Experts

Feb 12, 2024

Jakub Krajewski, Jan Ludziejewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur

141

Mixture of Experts (MoE)-Modelle haben sich als primäre Lösung zur Reduzierung der Rechenkosten von Large Language Models etabliert. In dieser Arbeit analysieren wir ihre Skalierungseigenschaften unter Einbeziehung eines erweiterten Variablenbereichs. Insbesondere führen wir einen neuen Hyperparameter, die Granularität, ein, dessen Anpassung eine präzise Kontrolle über die Größe der Experten ermöglicht. Aufbauend darauf etablieren wir Skalierungsgesetze für fein abgestufte MoE-Modelle, die die Anzahl der Trainings-Tokens, die Modellgröße und die Granularität berücksichtigen. Mithilfe dieser Gesetze leiten wir die optimale Trainingskonfiguration für ein gegebenes Rechenbudget ab. Unsere Ergebnisse zeigen nicht nur, dass MoE-Modelle durchweg dichte Transformer übertreffen, sondern auch, dass die Effizienzlücke zwischen dichten und MoE-Modellen mit zunehmender Modellgröße und Trainingsbudget weiter wächst. Darüber hinaus demonstrieren wir, dass die gängige Praxis, die Größe der Experten in MoE-Modellen an die Feed-Forward-Schicht anzupassen, bei nahezu jedem Rechenbudget nicht optimal ist.

ODIN: Entkoppelter Belohnungsmechanismus reduziert Manipulation in RLHF
ODIN: Disentangled Reward Mitigates Hacking in RLHF

Feb 11, 2024

Lichang Chen, Chen Zhu, Davit Soselia, Jiuhai Chen, Tianyi Zhou, Tom Goldstein, Heng Huang, Mohammad Shoeybi, Bryan Catanzaro

141

In dieser Arbeit untersuchen wir das Problem des Reward Hacking in Bezug auf die Antwortlänge, eine Herausforderung, die beim Reinforcement Learning from Human Feedback (RLHF) auf großen Sprachmodellen (LLMs) auftritt. Eine gut formatierte, ausführliche, aber weniger hilfreiche Antwort von LLMs kann oft sowohl die LLMs als auch menschliche Bewerter täuschen, um hohe Bewertungen zu erzielen. Das gleiche Problem tritt auch bei einigen Belohnungsmodellen im RL auf. Um die Herausforderungen sowohl im Training als auch in der Evaluation zu bewältigen, etablieren wir ein zuverlässigeres Evaluationsprotokoll zum Vergleich verschiedener Trainingskonfigurationen, das den Kompromiss zwischen der Bewertung des LLMs und der Antwortlänge untersucht, die durch die Variation der Trainingshyperparameter erzielt wird. Basierend auf dieser Evaluation führen wir umfangreiche Studien durch, deren Ergebnisse Einblicke in die Wirksamkeit von Hyperparametern und Tricks im RL zur Minderung der Längenverzerrung bieten. Wir schlagen weiterhin vor, das Belohnungsmodell zu verbessern, indem wir zwei lineare Köpfe auf gemeinsamen Merkmalsrepräsentationen trainieren, um die Belohnungen vorherzusagen: einer wird trainiert, um mit der Länge zu korrelieren, und der andere wird trainiert, um die Korrelation mit der Länge zu verringern und sich somit stärker auf den tatsächlichen Inhalt zu konzentrieren. Anschließend verwerfen wir den Längenkopf im RL, um Reward Hacking in Bezug auf die Länge zu verhindern. Experimente zeigen, dass unser Ansatz die Korrelation der Belohnung mit der Länge nahezu eliminiert und die erzielte Politik signifikant verbessert.

LiRank: Industrielle Large-Scale-Ranking-Modelle bei LinkedIn
LiRank: Industrial Large Scale Ranking Models at LinkedIn

Feb 10, 2024

Fedor Borisyuk, Mingzhou Zhou, Qingquan Song, Siyu Zhu, Birjodh Tiwana, Ganesh Parameswaran, Siddharth Dangi, Lars Hertel, Qiang Xiao, Xiaochen Hou, Yunbo Ouyang, Aman Gupta, Sheallika Singh, Dan Liu, Hailing Cheng, Lei Le, Jonathan Hung, Sathiya Keerthi, Ruoyan Wang, Fengyu Zhang, Mohit Kothari, Chen Zhu, Daqi Sun, Yun Dai, Xun Luan, Sirou Zhu, Zhiwei Wang, Neil Daftary, Qianqi Shen, Chengming Jiang, Haichao Wei, Maneesh Varshney, Amol Ghoting, Souvik Ghosh

131

Wir präsentieren LiRank, ein groß angelegtes Ranking-Framework bei LinkedIn, das modernste Modellarchitekturen und Optimierungsmethoden in die Produktion bringt. Wir enthüllen mehrere Modellverbesserungen, darunter Residual DCN, das Aufmerksamkeitsmechanismen und Residualverbindungen zur bekannten DCNv2-Architektur hinzufügt. Wir teilen Erkenntnisse über die Kombination und Feinabstimmung von State-of-the-Art (SOTA)-Architekturen zur Erstellung eines einheitlichen Modells, einschließlich Dense Gating, Transformers und Residual DCN. Wir schlagen auch neuartige Techniken zur Kalibrierung vor und beschreiben, wie wir Deep-Learning-basierte Explore/Exploit-Methoden in die Produktion überführt haben. Um eine effektive, produktionsreife Bereitstellung großer Ranking-Modelle zu ermöglichen, erläutern wir, wie Modelle durch Quantisierung und Vokabularkompression trainiert und komprimiert werden können. Wir geben Einzelheiten über die Bereitstellungsumgebung für groß angelegte Anwendungsfälle wie Feed-Ranking, Job-Empfehlungen und die Vorhersage der Klickrate (CTR) bei Anzeigen. Wir fassen unsere Erkenntnisse aus verschiedenen A/B-Tests zusammen, indem wir die effektivsten technischen Ansätze erläutern. Diese Ideen haben zu relativen Verbesserungen der Kennzahlen bei LinkedIn geführt: +0,5 % bei den Mitgliedersitzungen im Feed, +1,76 % bei qualifizierten Bewerbungen für die Jobsuche und -empfehlungen sowie +4,3 % bei der CTR von Anzeigen. Wir hoffen, dass diese Arbeit praktische Einblicke und Lösungen für Praktiker bietet, die groß angelegte Deep-Ranking-Systeme nutzen möchten.

GALA3D: Auf dem Weg zur Text-zu-3D-Komplexszenerie-Generierung mittels layoutgesteuerter generativer Gaußscher Splatting
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

Feb 11, 2024

Xiaoyu Zhou, Xingjian Ran, Yajiao Xiong, Jinlin He, Zhiwei Lin, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang

111

Wir präsentieren GALA3D, generative 3D-GAussians mit LAyout-gesteuerter Kontrolle, für eine effektive kompositionelle Text-zu-3D-Generierung. Zunächst nutzen wir große Sprachmodelle (LLMs), um das initiale Layout zu generieren, und führen eine layout-gesteuerte 3D-Gauß-Darstellung für die 3D-Inhaltsgenerierung mit adaptiven geometrischen Beschränkungen ein. Anschließend schlagen wir einen Objekt-Szene-Kompositionsoptimierungsmechanismus mit konditionierter Diffusion vor, um realistische 3D-Szenen mit konsistenter Geometrie, Textur, Skalierung und präzisen Interaktionen zwischen mehreren Objekten gemeinsam zu generieren, während gleichzeitig die groben Layout-Priors, die aus den LLMs extrahiert wurden, angepasst werden, um sie mit der generierten Szene in Einklang zu bringen. Experimente zeigen, dass GALA3D ein benutzerfreundliches, end-to-end Framework für die state-of-the-art Szenenebenen-3D-Inhaltsgenerierung und kontrollierbare Bearbeitung ist, während gleichzeitig die hohe Detailtreue der Objektebene innerhalb der Szene gewährleistet wird. Quellcodes und Modelle werden unter https://gala3d.github.io/ verfügbar sein.

Step-On-Feet-Tuning: Skalierung der Selbstausrichtung von LLMs durch Bootstrapping
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

Feb 12, 2024

Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao

101

Selbstausrichtung ist eine effektive Methode, um die Kosten für menschliche Annotation zu reduzieren und gleichzeitig eine vielversprechende Modellfähigkeit sicherzustellen. Die meisten aktuellen Methoden führen jedoch die Datensammlung und das Training in einem einzigen Durchgang durch, was die kontinuierlich verbesserte Fähigkeit selbstausgerichteter Modelle übersehen könnte. Dies wirft eine zentrale Frage auf: Was, wenn wir die Selbstausrichtung durch mehrfaches Bootstrapping durchführen? Verbessert diese Strategie die Modellleistung oder führt sie zu einer raschen Verschlechterung? In diesem Papier untersuchen wir erstmals die Auswirkungen von Bootstrapping-Selbstausrichtung auf große Sprachmodelle. Unsere Ergebnisse zeigen, dass Bootstrapping-Selbstausrichtung den Einzelrundenansatz deutlich übertrifft, indem sie die Datenvielfalt durch In-Context-Lernen sicherstellt. Um die Fähigkeiten des Bootstrappings weiter auszuschöpfen, untersuchen und passen wir die Trainingsreihenfolge der Daten an, was zu einer verbesserten Modellleistung führt. Aufbauend auf diesen Erkenntnissen schlagen wir Step-On-Feet Tuning (SOFT) vor, das die kontinuierlich verbesserte Few-Shot-Fähigkeit des Modells nutzt, um die Zero- oder One-Shot-Leistung zu steigern. Basierend auf einem Easy-to-Hard-Trainingsrezept schlagen wir SOFT+ vor, das die Leistung der Selbstausrichtung weiter verbessert. Unsere Experimente demonstrieren die Effizienz von SOFT (SOFT+) in verschiedenen Klassifikations- und Generierungsaufgaben und unterstreichen das Potenzial von Bootstrapping-Selbstausrichtung, die Modellausrichtungsleistung kontinuierlich zu verbessern.

Politikverbesserung durch Sprach-Feedback-Modelle
Policy Improvement using Language Feedback Models

Feb 12, 2024

Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté

Wir stellen Language Feedback Models (LFMs) vor, die erwünschtes Verhalten identifizieren – Aktionen, die dazu beitragen, die in der Anweisung spezifizierten Aufgaben zu erreichen – für das Imitationslernen bei der Befolgung von Anweisungen. Um LFMs zu trainieren, erhalten wir Feedback von Large Language Models (LLMs) zu visuellen Trajektorien, die in Sprachbeschreibungen verbalisiert werden. Erstens verbessern wir durch die Verwendung von LFMs zur Identifizierung von erwünschtem Verhalten, das nachgeahmt werden soll, die Aufgabenabschlussrate im Vergleich zu starken Verhaltensklon-Baselines in drei verschiedenen Sprachumgebungen (Touchdown, ScienceWorld und ALFWorld). Zweitens übertreffen LFMs die direkte Vorhersage von Aktionen durch LLMs als Experten, wenn die Anzahl der LLM-Ausgabetoken kontrolliert wird. Drittens generalisieren LFMs auf unbekannte Umgebungen und verbessern die Aufgabenabschlussrate durch eine Runde der Anpassung um 3,5-12,0%. Schließlich kann LFM so modifiziert werden, dass es menscheninterpretierbares Feedback ohne Leistungsverlust liefert, was die menschliche Überprüfung von erwünschtem Verhalten für das Imitationslernen ermöglicht.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Aya-Modell: Ein instruktionsfeinabgestimmtes, frei zugängliches mehrsprachiges Sprachmodell
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Feb 12, 2024

492

OS-Copilot: Auf dem Weg zu universellen Computeragenten mit Selbstverbesserung
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

Feb 12, 2024

Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu, Shunyu Yao, Tao Yu, Lingpeng Kong

464

ChemLLM: Ein chemisches Großsprachmodell
ChemLLM: A Chemical Large Language Model

Feb 10, 2024

Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang

317

Fiddler: CPU-GPU-Orchestrierung für schnelle Inferenz von Mixture-of-Experts-Modellen
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Feb 10, 2024

Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci

171

PIVOT: Iteratives visuelles Prompting generiert umsetzbares Wissen für VLMs
PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Feb 12, 2024

162

Flow-Matching-basierte Zero-Shot Text-to-Speech-Systeme zum Lachen bringen, wie Sie es möchten
Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

Feb 12, 2024

Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng

161