ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

LongWriter: Entfesseln der Erzeugung von über 10.000 Wörtern aus Long Context LLMs
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Aug 13
ByYushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li
67
6

Aktuelle Sprachmodelle mit langem Kontext (LLMs) können Eingaben von bis zu 100.000 Token verarbeiten, haben jedoch Schwierigkeiten, Ausgaben zu erzeugen, die auch nur eine bescheidene Länge von 2.000 Wörtern überschreiten. Durch kontrollierte Experimente stellen wir fest, dass die effektive Generierungslänge des Modells inhärent durch das Muster begrenzt ist, das es während des überwachten Feinabstimmens (SFT) gesehen hat. Mit anderen Worten, ihre Ausgabebegrenzung ist auf die Knappheit von langen Ausgabebeispielen in vorhandenen SFT-Datensätzen zurückzuführen. Um dies zu lösen, führen wir AgentWrite ein, eine agentenbasierte Pipeline, die ultralange Generierungsaufgaben in Teilaufgaben aufteilt und es Standard-LLMs ermöglicht, kohärente Ausgaben von mehr als 20.000 Wörtern zu erzeugen. Unter Verwendung von AgentWrite erstellen wir LongWriter-6k, einen Datensatz mit 6.000 SFT-Daten und Ausgabelängen von 2k bis 32k Wörtern. Durch die Einbeziehung dieses Datensatzes in das Modelltraining erhöhen wir erfolgreich die Ausgabelänge bestehender Modelle auf über 10.000 Wörter, während wir die Ausgabequalität beibehalten. Wir entwickeln auch LongBench-Write, einen umfassenden Benchmark zur Bewertung der Fähigkeiten zur Generierung von ultralangen Texten. Unser 9B-Parameter-Modell, das durch DPO weiter verbessert wurde, erzielt Spitzenleistungen in diesem Benchmark und übertrifft sogar wesentlich größere proprietäre Modelle. Im Allgemeinen zeigt unsere Arbeit, dass vorhandene Sprachmodelle mit langem Kontext bereits das Potenzial für ein größeres Ausgabefenster besitzen - alles, was Sie benötigen, sind Daten mit erweiterten Ausgaben während der Modellausrichtung, um diese Fähigkeit freizuschalten. Unser Code und unsere Modelle finden Sie unter: https://github.com/THUDM/LongWriter.

2

Bild 3
Imagen 3

Aug 13
ByImagen-Team-Google, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols
62
10

Wir stellen Imagen 3 vor, ein latentes Diffusionsmodell, das hochwertige Bilder aus Texteingaben generiert. Wir beschreiben unsere Qualitäts- und Verantwortungsbewertungen. Imagen 3 wird zum Zeitpunkt der Bewertung anderen State-of-the-Art-Modellen vorgezogen. Darüber hinaus diskutieren wir Sicherheits- und Repräsentationsprobleme sowie die Methoden, die wir verwendet haben, um potenzielle Schäden unserer Modelle zu minimieren.

3

Vielfalt stärkt Intelligenz: Integration der Expertise von Software-Engineering-Agenten
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

Aug 13
ByKexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong
42
8

Große Sprachmodell (LLM) Agenten haben ein großes Potenzial gezeigt, um reale Softwaretechnik (SWE) Probleme zu lösen. Der fortschrittlichste Open-Source SWE Agent kann über 27% der realen GitHub Probleme in SWE-Bench Lite lösen. Allerdings zeigen diese ausgeklügelten Agenten-Frameworks unterschiedliche Stärken, indem sie in bestimmten Aufgaben herausragend sind, während sie in anderen unterdurchschnittlich abschneiden. Um die Vielfalt dieser Agenten voll auszuschöpfen, schlagen wir DEI (Diversity Empowered Intelligence) vor, ein Framework, das ihre einzigartige Expertise nutzt. DEI fungiert als Meta-Modul über bestehenden SWE Agenten-Frameworks, um Agentenkollektive für eine verbesserte Problemlösung zu verwalten. Experimentelle Ergebnisse zeigen, dass ein von DEI geleitetes Gremium von Agenten die Leistung des besten einzelnen Agenten deutlich übertreffen kann. Beispielsweise kann eine Gruppe von Open-Source SWE Agenten, die eine maximale individuelle Lösungsrate von 27,3% in SWE-Bench Lite aufweisen, mit DEI eine Lösungsrate von 34,3% erreichen, was eine Verbesserung von 25% darstellt und die meisten Closed-Source Lösungen übertrifft. Unsere bestleistende Gruppe zeichnet sich durch eine Lösungsrate von 55% aus und sichert sich den höchsten Rang in SWE-Bench Lite. Unsere Ergebnisse tragen zum wachsenden Forschungskorpus über kollaborative KI-Systeme und deren Potenzial zur Lösung komplexer Softwaretechnik-Herausforderungen bei.

4

OpenResearcher: Die Entfesselung von KI für beschleunigte wissenschaftliche Forschung
OpenResearcher: Unleashing AI for Accelerated Scientific Research

Aug 13
ByYuxiang Zheng, Shichao Sun, Lin Qiu, Dongyu Ru, Cheng Jiayang, Xuefeng Li, Jifan Lin, Binjie Wang, Yun Luo, Renjie Pan, Yang Xu, Qingkai Min, Zizhao Zhang, Yiwen Wang, Wenjie Li, Pengfei Liu
32
4

Das rasante Wachstum der wissenschaftlichen Literatur stellt Forscher vor erhebliche Herausforderungen, um sich über die neuesten Fortschritte in ihren Fachgebieten auf dem Laufenden zu halten und in neue Bereiche vorzudringen. Wir stellen OpenResearcher vor, eine innovative Plattform, die Techniken der Künstlichen Intelligenz (KI) nutzt, um den Forschungsprozess zu beschleunigen, indem sie vielfältige Fragen von Forschern beantwortet. OpenResearcher basiert auf dem Retrieval-Augmented Generation (RAG), um große Sprachmodelle (LLMs) mit aktuellem, domänenspezifischem Wissen zu integrieren. Darüber hinaus entwickeln wir verschiedene Tools für OpenResearcher, um Forscheranfragen zu verstehen, in der wissenschaftlichen Literatur zu suchen, abgerufene Informationen zu filtern, genaue und umfassende Antworten bereitzustellen und diese Antworten selbst zu verfeinern. OpenResearcher kann diese Tools flexibel einsetzen, um Effizienz und Effektivität auszubalancieren. Als Ergebnis ermöglicht OpenResearcher Forschern, Zeit zu sparen und ihr Potenzial zur Entdeckung neuer Erkenntnisse und zur Förderung wissenschaftlicher Durchbrüche zu steigern. Eine Demo, ein Video und der Code sind verfügbar unter: https://github.com/GAIR-NLP/OpenResearcher.

5

Schichtweiser rekurrenter Router für Mischung von Experten
Layerwise Recurrent Router for Mixture-of-Experts

Aug 13
ByZihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu
32
2

Die Skalierung großer Sprachmodelle (LLMs) hat ihre Fähigkeiten in verschiedenen Aufgaben revolutioniert, doch dieses Wachstum muss mit effizienten Rechenstrategien einhergehen. Die Mixture-of-Experts (MoE) Architektur zeichnet sich durch ihre Fähigkeit aus, die Modellgröße zu skalieren, ohne die Trainingskosten signifikant zu erhöhen. Trotz ihrer Vorteile zeigen aktuelle MoE-Modelle oft eine Parameterineffizienz. Beispielsweise könnte ein vorab trainiertes MoE-basiertes LLM mit 52 Milliarden Parametern vergleichbare Leistungen erbringen wie ein Standardmodell mit 6,7 Milliarden Parametern. Als entscheidender Bestandteil von MoE weisen aktuelle Router in verschiedenen Schichten eigenständig Tokens zu, ohne historische Routing-Informationen zu nutzen, was potenziell zu suboptimalen Token-Expert-Kombinationen und dem Parameterineffizienzproblem führt. Um dieses Problem zu mildern, führen wir den Schichtweisen Rekurrenten Router für Mixture-of-Experts (RMoE) ein. RMoE nutzt eine Gated Rekurrente Einheit (GRU), um Abhängigkeiten zwischen Routing-Entscheidungen über aufeinanderfolgende Schichten herzustellen. Eine solche schichtweise Rekurrenz kann effizient parallel für Eingabetokens berechnet werden und führt zu verhandelbaren Kosten. Unsere umfangreichen empirischen Bewertungen zeigen, dass auf RMoE basierende Sprachmodelle konsistent eine Vielzahl von Basislinienmodellen übertreffen. Darüber hinaus integriert RMoE eine neue Rechenstufe, die orthogonal zu bestehenden Methoden ist und eine nahtlose Kompatibilität mit anderen MoE-Architekturen ermöglicht. Unsere Analysen führen die Gewinne von RMoE auf den effektiven Informationsaustausch zwischen Schichten zurück, der auch die Expertenauswahl und -vielfalt verbessert. Unser Code ist unter https://github.com/qiuzh20/RMoE verfügbar.

6

Amuro & Char: Analyse der Beziehung zwischen Vor-Training und Feinabstimmung großer Sprachmodelle
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models

Aug 13
ByKaiser Sun, Mark Dredze
16
1

Die Entwicklung großer Sprachmodelle führt zur Bildung eines Vor-Trainiere-dann-Abgleichen-Paradigmas, bei dem das Modell in der Regel auf einem großen Textkorpus vorab trainiert wird und eine Abstimmungsphase durchläuft, um das Modell mit menschlichen Präferenzen oder nachgelagerten Aufgaben in Einklang zu bringen. In dieser Arbeit untersuchen wir die Beziehung zwischen Vor-Training und Feinabstimmung, indem wir mehrere Zwischenmodelle vorab trainieren und feinabstimmen. Unsere Ergebnisse zu 18 Datensätzen legen nahe, dass i) kontinuierliches Vor-Training das Modell latente verbessert, was sich nach der Feinabstimmung zeigt; ii) mit zusätzlicher Feinabstimmung profitieren die Datensätze, bei denen das Modell während des Vor-Trainings nicht gut abschneidet, viel mehr als diejenigen, bei denen das Modell bereits gut abschneidet; iii) obwohl das Modell durch überwachte Feinabstimmung erheblich profitiert, kann es zuvor bekanntes Domänenwissen und Aufgaben vergessen, die während der Feinabstimmung nicht gesehen werden; iv) das Modell zeigt nach überwachter Feinabstimmung eine hohe Empfindlichkeit gegenüber Bewertungsanfragen, aber diese Empfindlichkeit kann durch mehr Vor-Training gemildert werden.

7

SlotLifter: Slot-geführtes Merkmalheben zum Lernen von Objektzentrierten Strahlungsfeldern
SlotLifter: Slot-guided Feature Lifting for Learning Object-centric Radiance Fields

Aug 13
ByYu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang
15
2

Die Fähigkeit, objektorientierte Abstraktionen aus komplexen visuellen Szenen zu extrahieren, bildet die Grundlage für Generalisierung auf menschlicher Ebene. Trotz des signifikanten Fortschritts bei objektorientierten Lernmethoden bleibt das Lernen von objektorientierten Repräsentationen in der 3D-physikalischen Welt eine entscheidende Herausforderung. In dieser Arbeit schlagen wir SlotLifter vor, ein neuartiges Strahlungsmodell mit objektorientiertem Ansatz, das die Szenenrekonstruktion und -zerlegung gemeinsam durch slotgeführtes Merkmalheben angeht. Ein solches Design vereint objektorientierte Lernrepräsentationen und bildbasierte Rendering-Methoden, die eine erstklassige Leistung bei der Szenenzerlegung und der Synthese von neuen Ansichten auf vier anspruchsvollen synthetischen und vier komplexen realen Datensätzen bieten und bestehende 3D-objektorientierte Lernmethoden bei weitem übertreffen. Durch umfangreiche ablative Studien zeigen wir die Wirksamkeit der Designs in SlotLifter auf und offenbaren wichtige Erkenntnisse für potenzielle zukünftige Richtungen.

8

DC3DO: Diffusionsklassifizierer für 3D-Objekte
DC3DO: Diffusion Classifier for 3D Objects

Aug 13
ByNursena Koprucu, Meher Shashwat Nigam, Shicheng Xu, Biruk Abere, Gabriele Dominici, Andrew Rodriguez, Sharvaree Vadgam, Berfin Inal, Alberto Tono
11
2

Angeregt durch Geoffrey Hintons Betonung der generativen Modellierung, „Um Formen zu erkennen, lerne zuerst, sie zu generieren“, erforschen wir den Einsatz von 3D-Diffusionsmodellen für die Objektklassifizierung. Durch die Nutzung der Dichteschätzungen aus diesen Modellen ermöglicht unser Ansatz, der Diffusionsklassifizierer für 3D-Objekte (DC3DO), die Klassifizierung von 3D-Formen ohne zusätzliches Training. Im Durchschnitt erzielt unsere Methode eine Verbesserung von 12,5 Prozent im Vergleich zu ihren Multiansichtsgegenstücken und zeigt damit eine überlegene multimodale Schlussfolgerung gegenüber diskriminativen Ansätzen. DC3DO verwendet ein klassenbedingtes Diffusionsmodell, das auf ShapeNet trainiert ist, und wir führen Inferenzen an Punktwolken von Stühlen und Autos durch. Diese Arbeit verdeutlicht das Potenzial generativer Modelle in der 3D-Objektklassifizierung.

9

FuxiTranyu: Ein mehrsprachiges großes Sprachmodell, das mit ausgewogenen Daten trainiert wurde.
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Aug 12
ByHaoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
10
1

Große Sprachmodelle (LLMs) haben ihre Fähigkeiten in einer Vielzahl von Aufgaben unter Beweis gestellt. Allerdings zeigen viele LLMs signifikante Leistungsunterschiede zwischen hoch- und gering ressourcenreichen Sprachen. Um diese Herausforderung zu mildern, präsentieren wir FuxiTranyu, ein Open-Source mehrsprachiges LLM, das darauf ausgelegt ist, den Bedarf der Forschungsgemeinschaft an ausgewogenen und leistungsstarken mehrsprachigen Fähigkeiten zu erfüllen. FuxiTranyu-8B, das Basismodell mit 8 Milliarden Parametern, wird von Grund auf auf einem sorgfältig ausbalancierten mehrsprachigen Datensatz trainiert, der 600 Milliarden Tokens aus 43 natürlichen Sprachen und 16 Programmiersprachen umfasst. Neben dem Basismodell entwickeln wir auch zwei anweisungsgesteuerte Modelle: FuxiTranyu-8B-SFT, das auf einem vielfältigen mehrsprachigen Anweisungsdatensatz feinabgestimmt ist, und FuxiTranyu-8B-DPO, das mit DPO auf einem Präferenzdatensatz weiter verfeinert wird, um die Ausrichtungsfähigkeit zu verbessern. Umfangreiche Experimente an einer Vielzahl von mehrsprachigen Benchmarks zeigen die Wettbewerbsfähigkeit von FuxiTranyu gegenüber bestehenden mehrsprachigen LLMs wie z.B. BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B und Mistral-7B-Instruct. Interpretationsanalysen auf Neuronen- und Repräsentationsebene legen nahe, dass FuxiTranyu in der Lage ist, konsistente mehrsprachige Repräsentationen über verschiedene Sprachen hinweg zu erlernen. Um weitere Forschung zu mehrsprachigen LLMs und deren Funktionsmechanismen zu fördern, veröffentlichen wir sowohl die Basismodelle als auch die anweisungsgesteuerten FuxiTranyu-Modelle zusammen mit 58 Vortrainings-Checkpoints bei HuggingFace und Github.

10

UniT: Vereinheitlichte taktile Darstellung für das Lernen von Robotern
UniT: Unified Tactile Representation for Robot Learning

Aug 12
ByZhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She
10
2

UniT ist ein neuartiger Ansatz zum Erlernen taktiler Repräsentationen, der VQVAE verwendet, um einen kompakten latenten Raum zu erlernen und als taktile Repräsentation zu dienen. Es nutzt taktile Bilder, die von einem einzigen einfachen Objekt erhalten wurden, um die Repräsentation mit Übertragbarkeit und Verallgemeinerbarkeit zu trainieren. Diese taktile Repräsentation kann ohne vorheriges Training auf verschiedene nachgelagerte Aufgaben übertragen werden, einschließlich Wahrnehmungsaufgaben und Politiklernen für Manipulationen. Unsere Bewertung in einer Aufgabe zur 3D-Positionsschätzung in der Hand zeigt, dass UniT bestehende Methoden des visuellen und taktilen Repräsentationslernens übertrifft. Darüber hinaus wird die Wirksamkeit von UniT im Politiklernen anhand von drei realen Aufgaben mit verschiedenen manipulierten Objekten und komplexen Interaktionen zwischen Roboter, Objekt und Umgebung demonstriert. Durch umfangreiche Experimente wird gezeigt, dass UniT eine einfach zu trainierende, Plug-and-Play, aber weitreichend effektive Methode für das taktile Repräsentationslernen ist. Für weitere Details verweisen wir auf unser Open-Source-Repository unter https://github.com/ZhengtongXu/UniT und die Projektwebsite unter https://zhengtongxu.github.io/unifiedtactile.github.io/.

11

MovieSum: Ein abstraktes Zusammenfassungsdatenset für Drehbücher von Filmen.
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays

Aug 12
ByRohit Saxena, Frank Keller
9
2

Die Zusammenfassung von Film-Drehbüchern ist eine Herausforderung, da sie ein Verständnis für lange Eingabekontexte und verschiedene Elemente erfordert, die für Filme einzigartig sind. Große Sprachmodelle haben signifikante Fortschritte bei der Dokumentenzusammenfassung gezeigt, haben jedoch oft Schwierigkeiten bei der Verarbeitung langer Eingabekontexte. Darüber hinaus, während Fernsehtranskripte in jüngsten Studien Aufmerksamkeit erhalten haben, bleibt die Zusammenfassung von Film-Drehbüchern untererforscht. Um die Forschung in diesem Bereich zu stimulieren, präsentieren wir ein neues Datenset, MovieSum, für die abstrakte Zusammenfassung von Film-Drehbüchern. Dieses Datenset umfasst 2200 Film-Drehbücher zusammen mit ihren Wikipedia-Handlungsübersichten. Wir haben die Film-Drehbücher manuell formatiert, um ihre strukturellen Elemente darzustellen. Im Vergleich zu bestehenden Datensets weist MovieSum mehrere einzigartige Merkmale auf: (1) Es enthält Film-Drehbücher, die länger sind als Skripte von TV-Episoden. (2) Es ist doppelt so groß wie vorherige Datensets von Film-Drehbüchern. (3) Es bietet Metadaten mit IMDb-IDs, um den Zugriff auf zusätzliches externes Wissen zu erleichtern. Wir zeigen auch die Ergebnisse von kürzlich veröffentlichten großen Sprachmodellen, die auf unserer Datensammlung zur Zusammenfassung angewendet wurden, um eine detaillierte Basislinie bereitzustellen.

12

Entwurf von Proteinen unter Verwendung großer Sprachmodelle: Verbesserungen und Vergleichsanalysen
Design Proteins Using Large Language Models: Enhancements and Comparative Analyses

Aug 12
ByKamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori
8
1

Vorab trainierte LLMs haben erhebliche Fähigkeiten in einer Vielzahl von konventionellen natürlichsprachlichen Verarbeitungsaufgaben (NLP) gezeigt, wie Zusammenfassung und Entitätenerkennung. In diesem Paper untersuchen wir die Anwendung von LLMs bei der Generierung hochwertiger Proteinsequenzen. Speziell verwenden wir eine Reihe von vorab trainierten LLMs, darunter Mistral-7B1, Llama-2-7B2, Llama-3-8B3 und Gemma-7B4, um gültige Proteinsequenzen zu erzeugen. Alle diese Modelle sind öffentlich verfügbar. Im Gegensatz zu früheren Arbeiten in diesem Bereich nutzt unser Ansatz einen relativ kleinen Datensatz, der 42.000 verschiedene menschliche Proteinsequenzen umfasst. Wir trainieren diese Modelle neu, um proteinbezogene Daten zu verarbeiten und so die Generierung biologisch machbarer Proteinstrukturen sicherzustellen. Unsere Ergebnisse zeigen, dass selbst mit begrenzten Daten die angepassten Modelle eine Effizienz aufweisen, die mit etablierten proteinfokussierten Modellen wie den ProGen-Varianten, ProtGPT2 und ProLLaMA vergleichbar ist, die auf Millionen von Proteinsequenzen trainiert wurden. Zur Validierung und Quantifizierung der Leistung unserer Modelle führen wir vergleichende Analysen durch, bei denen Standardmetriken wie pLDDT, RMSD, TM-Score und REU verwendet werden. Darüber hinaus verpflichten wir uns, die trainierten Versionen aller vier Modelle öffentlich zugänglich zu machen, um eine größere Transparenz und Zusammenarbeit im Bereich der computergestützten Biologie zu fördern.

13

TacSL: Eine Bibliothek für die Simulation und das Lernen von visuotaktilen Sensoren
TacSL: A Library for Visuotactile Sensor Simulation and Learning

Aug 12
ByIretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang
8
2

Sowohl für Menschen als auch für Roboter ist der Tastsinn, bekannt als taktiles Sensorik, entscheidend für die Durchführung von berührungsreichen Manipulationstätigkeiten. Drei Schlüsselherausforderungen bei der robotischen taktilen Sensorik sind 1) die Interpretation von Sensorsignalen, 2) die Erzeugung von Sensorsignalen in neuen Szenarien und 3) das Erlernen von sensorbasierten Richtlinien. Bei visuotaktilen Sensoren wurde die Interpretation durch ihre enge Beziehung zu Visionssensoren (z. B. RGB-Kameras) erleichtert. Die Erzeugung ist jedoch immer noch schwierig, da visuotaktile Sensoren in der Regel Kontakt, Verformung, Beleuchtung und Bildgebung beinhalten, die alle teuer zu simulieren sind; wiederum war das Erlernen von Richtlinien herausfordernd, da die Simulation nicht für die Datensammlung im großen Maßstab genutzt werden konnte. Wir stellen TacSL (Taxel) vor, eine Bibliothek für die GPU-basierte Simulation und das Lernen von visuotaktilen Sensoren. TacSL kann verwendet werden, um visuotaktile Bilder zu simulieren und Kontakt-Kraftverteilungen über 200-mal schneller als der bisherige Stand der Technik zu extrahieren, und das alles innerhalb des weit verbreiteten Isaac Gym Simulators. Darüber hinaus bietet TacSL ein Lernwerkzeug, das mehrere Sensormodelle, kontaktintensive Trainingsumgebungen und Online-/Offline-Algorithmen enthält, die das Erlernen von Richtlinien für Sim-zu-Real-Anwendungen erleichtern können. Auf algorithmischer Seite stellen wir einen neuartigen Online-Verstärkungslernalgorithmus namens Asymmetrische Aktor-Kritiker-Destillation (SysName) vor, der darauf ausgelegt ist, taktikbasierte Richtlinien in der Simulation effektiv und effizient zu erlernen, die auf die reale Welt übertragen werden können. Schließlich demonstrieren wir den Nutzen unserer Bibliothek und Algorithmen, indem wir die Vorteile der Destillation und multimodalen Sensorik für berührungsreiche Manipulationstätigkeiten bewerten und am wichtigsten die Sim-zu-Real-Übertragung durchführen. Zusätzliche Videos und Ergebnisse finden Sie unter https://iakinola23.github.io/tacsl/.

14

ZePo: Nullschuss-Porträt-Stilisierung mit schnellerer Abtastung
ZePo: Zero-Shot Portrait Stylization with Faster Sampling

Aug 10
ByJin Liu, Huaibo Huang, Jie Cao, Ran He
7
2

Diffusionsbasierte Text-zu-Bild-Generierungsmodelle haben das Feld der Kunstinhaltssynthese erheblich vorangetrieben. Allerdings erfordern aktuelle Porträt-Stilisierungsmethoden in der Regel entweder eine Feinabstimmung des Modells anhand von Beispielen oder die Anwendung der DDIM-Inversion, um Bilder in den Rauschraum zurückzuführen, was den Bildgenerierungsprozess erheblich verlangsamt. Um diese Einschränkungen zu überwinden, präsentiert diese Arbeit ein Inversionsfreies Porträt-Stilisierungsrahmenwerk auf Basis von Diffusionsmodellen, das die Fusion von Inhalt und Stilmerkmalen in lediglich vier Abtastschritten erreicht. Wir haben festgestellt, dass Latente Konsistenzmodelle, die Konsistenzdestillation einsetzen, effektiv repräsentative Konsistenzmerkmale aus rauschigen Bildern extrahieren können. Um die aus Inhalt und Stilbildern extrahierten Konsistenzmerkmale zu verschmelzen, führen wir eine Technik zur Stilverbesserungs-Aufmerksamkeitskontrolle ein, die Inhalt und Stilmerkmale sorgfältig im Aufmerksamkeitsraum des Zielbildes fusioniert. Darüber hinaus schlagen wir eine Merkmalsverschmelzungsstrategie vor, um redundante Merkmale in den Konsistenzmerkmalen zu amalgamieren und damit die Rechenlast der Aufmerksamkeitskontrolle zu reduzieren. Umfangreiche Experimente haben die Wirksamkeit unseres vorgeschlagenen Rahmens bei der Verbesserung der Stilisierungseffizienz und -treue bestätigt. Der Code ist verfügbar unter https://github.com/liujin112/ZePo.

15

Anpassung der allgemeinen entwirrungsbasierten Sprecheranonymisierung zur Verbesserung der Emotionserhaltung
Adapting General Disentanglement-Based Speaker Anonymization for Enhanced Emotion Preservation

Aug 12
ByXiaoxiao Miao, Yuxiang Zhang, Xin Wang, Natalia Tomashenko, Donny Cheng Lock Soh, Ian Mcloughlin
6
1

Ein allgemeines Entflechtungs-basiertes System zur Sprecheranonymisierung trennt typischerweise Sprache in Inhalts-, Sprecher- und Prosodie-Merkmale mithilfe einzelner Encoder. Diese Arbeit untersucht, wie man ein solches System anpasst, wenn ein neues Sprachmerkmal, zum Beispiel Emotion, in größerem Maße bewahrt werden muss. Während bestehende Systeme gut darin sind, Sprecher-Einbettungen zu anonymisieren, sind sie nicht darauf ausgelegt, Emotionen zu bewahren. Zwei Strategien hierfür werden untersucht. Zunächst zeigen wir, dass die Integration von Emotions-Einbettungen aus einem vorab trainierten Emotions-Encoder dazu beitragen kann, emotionale Hinweise zu bewahren, obwohl dieser Ansatz die Datenschutzmaßnahmen leicht beeinträchtigt. Alternativ schlagen wir eine Emotionsausgleichsstrategie als Nachbearbeitungsschritt für anonymisierte Sprecher-Einbettungen vor. Diese verbirgt die Identität des ursprünglichen Sprechers und führt die während der Anonymisierung der Sprecher-Einbettung verlorenen emotionalen Merkmale wieder ein. Speziell modellieren wir das Emotionsmerkmal mithilfe von Support Vector Machines, um separate Grenzen für jede Emotion zu erlernen. Während der Inferenz wird die ursprüngliche Sprecher-Einbettung auf zwei Arten verarbeitet: erstens durch einen Emotionsindikator zur Vorhersage der Emotion und Auswahl der passenden SVM für die Emotion; und zweitens durch einen Sprecher-Anonymisierer zur Verdeckung der Sprechereigenschaften. Die anonymisierte Sprecher-Einbettung wird dann entlang der entsprechenden SVM-Grenze in Richtung einer verbesserten emotionalen Ausrichtung modifiziert, um die emotionalen Hinweise zu bewahren. Es wird erwartet, dass die vorgeschlagenen Strategien auch nützlich sind, um ein allgemeines Entflechtungs-basiertes System zur Sprecheranonymisierung an andere Ziel-Paralinguistikmerkmale anzupassen, mit Potenzial für eine Vielzahl von nachgelagerten Aufgaben.

Aug 13
Aug 14
Aug 15