HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

30 papers found

DeepSeek-Coder-V2: Überwindung der Barriere geschlossener Modelle in der Code-Intelligenz
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

Jun 17

ByDeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang

Wir präsentieren DeepSeek-Coder-V2, ein Open-Source-Sprachmodell für Code auf Basis eines Mixture-of-Experts (MoE), das eine Leistung erzielt, die mit GPT4-Turbo in codespezifischen Aufgaben vergleichbar ist. Speziell wurde DeepSeek-Coder-V2 weiter vorab trainiert, ausgehend von einem Zwischen-Checkpoint von DeepSeek-V2, mit zusätzlichen 6 Billionen Tokens. Durch dieses fortgesetzte Vorab-Training verbessert DeepSeek-Coder-V2 wesentlich die Kodier- und mathematischen Denkfähigkeiten von DeepSeek-V2, während es eine vergleichbare Leistung in allgemeinen Sprachaufgaben beibehält. Im Vergleich zu DeepSeek-Coder-33B zeigt DeepSeek-Coder-V2 signifikante Fortschritte in verschiedenen Aspekten von codebezogenen Aufgaben sowie Denk- und allgemeinen Fähigkeiten. Darüber hinaus erweitert DeepSeek-Coder-V2 die Unterstützung für Programmiersprachen von 86 auf 338 und verlängert die Kontextlänge von 16K auf 128K. In standardisierten Benchmark-Evaluationen erzielt DeepSeek-Coder-V2 eine überlegene Leistung im Vergleich zu Closed-Source-Modellen wie GPT4-Turbo, Claude 3 Opus und Gemini 1.5 Pro in Kodier- und Mathematik-Benchmarks.

Tiefe überall: Verbesserung der monokularen Tiefenschätzung in 360-Grad-Ansichten durch Perspektiven-Destillation und Erweiterung mit unbeschrifteten Daten
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

Jun 18

ByNing-Hsu Wang, Yu-Lun Liu

Die genaue Schätzung der Tiefe in 360-Grad-Bildern ist entscheidend für Virtual Reality, autonome Navigation und immersive Medienanwendungen. Bestehende Tiefenschätzmethoden, die für perspektivische Bilder entwickelt wurden, versagen, wenn sie auf 360-Grad-Bilder angewendet werden, aufgrund unterschiedlicher Kameraprojektionen und Verzerrungen, während 360-Grad-Methoden aufgrund des Mangels an beschrifteten Datenpaaren unterlegen sind. Wir schlagen ein neues Tiefenschätzungsframework vor, das unlabeled 360-Grad-Daten effektiv nutzt. Unser Ansatz verwendet modernste perspektivische Tiefenschätzmodelle als Lehrmodelle, um Pseudomarkierungen durch eine Sechsflächenwürfelprojektionstechnik zu generieren, die eine effiziente Beschriftung der Tiefe in 360-Grad-Bildern ermöglicht. Diese Methode nutzt die zunehmende Verfügbarkeit großer Datensätze. Unser Ansatz umfasst zwei Hauptphasen: die Offline-Maskenerzeugung für ungültige Regionen und ein Online-Semi-supervised-Joint-Training-Regime. Wir haben unseren Ansatz an Benchmark-Datensätzen wie Matterport3D und Stanford2D3D getestet und dabei signifikante Verbesserungen bei der Tiefenschätzungsgenauigkeit gezeigt, insbesondere in Zero-Shot-Szenarien. Unsere vorgeschlagene Trainingspipeline kann jeden 360-Monokulartiefenschätzer verbessern und zeigt eine effektive Wissensübertragung über verschiedene Kameraprojektionen und Datentypen hinweg. Sehen Sie unsere Projektseite für Ergebnisse: https://albert100121.github.io/Depth-Anywhere/

Bootstrapping von Sprachmodellen mit DPO Impliziten Belohnungen
Bootstrapping Language Models with DPO Implicit Rewards

Jun 14

ByChangyu Chen, Zichen Liu, Chao Du, Tianyu Pang, Qian Liu, Arunesh Sinha, Pradeep Varakantham, Min Lin

Die menschliche Ausrichtung in großen Sprachmodellen (LLMs) ist ein aktiver Forschungsbereich. Ein kürzlich bahnbrechendes Werk, die direkte Präferenzoptimierung (DPO), hat den Prozess im Vergleich zu früheren Arbeiten im Bereich des verstärkenden Lernens aus menschlichem Feedback (RLHF) erheblich vereinfacht, indem es die Belohnungslernphase in RLHF umgeht. DPO stellt nach dem Training ein implizites Belohnungsmodell bereit. In dieser Arbeit machen wir eine neuartige Beobachtung, dass dieses implizite Belohnungsmodell an sich in einer Art von Bootstrapping verwendet werden kann, um das LLM weiter auszurichten. Unser Ansatz besteht darin, die Belohnungen aus einem aktuellen LLM-Modell zu verwenden, um einen Präferenzdatensatz zu erstellen, der dann in nachfolgenden DPO-Runden verwendet wird. Wir integrieren Verfeinerungen, die die Länge der Antworten entzerren und die Qualität des Präferenzdatensatzes verbessern, um unseren Ansatz weiter zu verbessern. Unser Ansatz, benannt Selbstausrichtung mit DPO ImpliCit rEwards (DICE), zeigt große Verbesserungen in der Ausrichtung und erreicht eine überlegene Leistung als Gemini Pro auf AlpacaEval 2, mit einer Längenkontrollgewinnrate von 27,55% gegenüber GPT-4 Turbo, jedoch mit nur 8B Parametern und ohne externes Feedback. Unser Code ist verfügbar unter https://github.com/sail-sg/dice.

TroL: Traversieren von Schichten für große Sprach- und Bildmodelle
TroL: Traversal of Layers for Large Language and Vision Models

Jun 18

ByByung-Kwan Lee, Sangyun Chung, Chae Won Kim, Beomchan Park, Yong Man Ro

Große Sprach- und Bildmodelle (LLVMs) wurden durch die Generalisierungskraft großer Sprachmodelle (LLMs) und das Aufkommen der visuellen Anleitungsoptimierung vorangetrieben. Neben der direkten Skalierung ermöglichen diese Modelle LLVMs, leistungsstarke Visionssprach-Performances zu präsentieren, indem sie verschiedene Aufgaben über natürlichsprachliche Anweisungen abdecken. Allerdings gelten bestehende Open-Source-LLVMs, die vergleichbar mit Closed-Source-LLVMs wie GPT-4V abschneiden, oft als zu groß (z. B. 26 Mrd., 34 Mrd. und 110 Mrd. Parameter) und haben eine größere Anzahl von Schichten. Diese großen Modelle erfordern teure, leistungsstarke Ressourcen sowohl für das Training als auch für die Inferenz. Um dieses Problem anzugehen, präsentieren wir eine neue effiziente LLVM-Familie mit den Größen von 1,8 Mrd., 3,8 Mrd. und 7 Mrd. LLM-Modellen, Traversal of Layers (TroL), die es ermöglicht, Schichten auf tokenweiser Ebene wiederzuverwenden. Diese Schichttraversierungstechnik simuliert den Effekt des Zurückblickens und Nachverfolgens des Antwortstroms, während die Anzahl der Vorwärtspropagationsschichten erhöht wird, ohne physisch mehr Schichten hinzuzufügen. Wir zeigen, dass TroL einen einfachen Schichttraversierungsansatz verwendet, der jedoch effizient Open-Source-LLVMs mit größeren Modellgrößen übertrifft und die Leistungen der Closed-Source-LLVMs mit erheblichen Größen erreicht.

ChatGLM: Eine Familie großer Sprachmodelle von GLM-130B bis GLM-4 Alle Tools
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Jun 18

ByTeam GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Diego Rojas, Guanyu Feng, Hanlin Zhao, Hanyu Lai, Hao Yu, Hongning Wang, Jiadai Sun, Jiajie Zhang, Jiale Cheng, Jiayi Gui, Jie Tang, Jing Zhang, Juanzi Li, Lei Zhao, Lindong Wu, Lucen Zhong, Mingdao Liu, Minlie Huang, Peng Zhang, Qinkai Zheng, Rui Lu, Shuaiqi Duan, Shudan Zhang, Shulin Cao, Shuxun Yang, Weng Lam Tam, Wenyi Zhao, Xiao Liu, Xiao Xia, Xiaohan Zhang, Xiaotao Gu, Xin Lv, Xinghan Liu, Xinyi Liu, Xinyue Yang, Xixuan Song, Xunkai Zhang, Yifan An, Yifan Xu, Yilin Niu, Yuantao Yang, Yueyan Li, Yushi Bai, Yuxiao Dong, Zehan Qi, Zhaoyu Wang, Zhen Yang, Zhengxiao Du, Zhenyu Hou, Zihan Wang

Wir stellen ChatGLM vor, eine sich entwickelnde Familie großer Sprachmodelle, an der wir im Laufe der Zeit gearbeitet haben. Dieser Bericht konzentriert sich hauptsächlich auf die GLM-4-Sprachserie, zu der GLM-4, GLM-4-Air und GLM-4-9B gehören. Sie repräsentieren unsere leistungsfähigsten Modelle, die mit allen Erkenntnissen und Lehren trainiert wurden, die aus den vorangegangenen drei Generationen von ChatGLM gewonnen wurden. Bisher wurden die GLM-4-Modelle auf zehn Billionen Tokens hauptsächlich in Chinesisch und Englisch vorab trainiert, zusammen mit einem kleinen Korpus aus 24 Sprachen, hauptsächlich für den Gebrauch in Chinesisch und Englisch. Die hochwertige Ausrichtung wird durch einen mehrstufigen Nachschulungsprozess erreicht, der überwachtes Feintuning und das Lernen aus menschlichem Feedback beinhaltet. Bewertungen zeigen, dass GLM-4 1) GPT-4 in Bezug auf allgemeine Metriken wie MMLU, GSM8K, MATH, BBH, GPQA und HumanEval nahezu ebenbürtig ist oder übertrifft, 2) in der Anweisungsbefolgung GPT-4-Turbo nahekommt, wie durch IFEval gemessen, 3) GPT-4 Turbo (128K) und Claude 3 für Aufgaben mit langem Kontext ebenbürtig ist und 4) GPT-4 in chinesischen Ausrichtungen, wie durch AlignBench gemessen, übertrifft. Das GLM-4 All Tools-Modell ist zusätzlich darauf ausgerichtet, Benutzerabsichten zu verstehen und autonom zu entscheiden, wann und welche Werkzeuge - einschließlich Webbrowser, Python-Interpreter, Text-zu-Bild-Modell und benutzerdefinierte Funktionen - effektiv zur Bewältigung komplexer Aufgaben eingesetzt werden sollen. In praktischen Anwendungen ist es in der Lage, und übertrifft sogar GPT-4 All Tools bei Aufgaben wie dem Zugriff auf Online-Informationen über Web-Browsing und dem Lösen von mathematischen Problemen mit dem Python-Interpreter. Im Laufe der Zeit haben wir eine Reihe von Modellen als Open-Source veröffentlicht, darunter ChatGLM-6B (drei Generationen), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM und CodeGeeX, die allein im Jahr 2023 über 10 Millionen Downloads auf Hugging Face angezogen haben. Die Open-Source-Modelle können über https://github.com/THUDM und https://huggingface.co/THUDM abgerufen werden.

VoCo-LLaMA: Auf dem Weg zur Bildkompression mit großen Sprachmodellen
VoCo-LLaMA: Towards Vision Compression with Large Language Models

Jun 18

ByXubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang

Vision-Language-Modelle (VLMs) haben bemerkenswerte Erfolge bei verschiedenen multimodalen Aufgaben erzielt, sind jedoch häufig durch das begrenzte Kontextfenster und die hohe Rechenleistung bei der Verarbeitung von hochauflösenden Bildern und Videos eingeschränkt. Die Vision-Kompression kann dieses Problem durch die Reduzierung der Anzahl der Vision-Token lindern. Frühere Ansätze komprimieren Vision-Token mit externen Modulen und zwingen LLMs, die komprimierten zu verstehen, was zu einem Verlust visueller Informationen führt. Der Verständnisparadigma der Vision-Token durch LLMs wird jedoch im Kompressionslernprozess nicht vollständig genutzt. Wir schlagen VoCo-LLaMA vor, den ersten Ansatz zur Komprimierung von Vision-Token unter Verwendung von LLMs. Durch die Einführung von Vision-Kompressions-Token während der Phase der Feinabstimmung der Vision-Anweisung und die Nutzung der Aufmerksamkeitsdestillation destilliert unsere Methode, wie LLMs Vision-Token verstehen, in ihre Verarbeitung von VoCo-Token. VoCo-LLaMA erleichtert eine effektive Vision-Kompression und verbessert die Recheneffizienz während der Inferenzphase. Speziell erreicht unsere Methode minimale Leistungseinbußen bei einem Kompressionsverhältnis von 576mal, was zu bis zu 94,8 % weniger FLOPs und einer Beschleunigung der Inferenzzeit um 69,6 % führt. Darüber hinaus zeigt VoCo-LLaMA durch kontinuierliches Training mit zeitlich komprimierten Token-Sequenzen von Videoframes die Fähigkeit, zeitliche Korrelationen zu verstehen und übertrifft frühere Methoden in gängigen Benchmarktests für Video-Fragenbeantwortung. Unser Ansatz bietet einen vielversprechenden Weg, um das volle Potenzial des Kontextfensters von VLMs zu erschließen und damit skalierbarere multimodale Anwendungen zu ermöglichen. Die Projektseite sowie der zugehörige Code sind über https://yxxxb.github.io/VoCo-LLaMA-Seite/{diese https-URL} abrufbar.

AgileCoder: Dynamische kollaborative Agenten für die Softwareentwicklung basierend auf der agilen Methodik
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology

Jun 16

ByMinh Huynh Nguyen, Thang Phan Chau, Phong X. Nguyen, Nghi D. Q. Bui

Software-Agenten haben sich als vielversprechende Werkzeuge zur Bewältigung komplexer Softwaretechnikaufgaben herausgestellt. Allerdings vereinfachen bestehende Arbeiten Softwareentwicklungsworkflows, indem sie dem Wasserfallmodell folgen. Daher schlagen wir AgileCoder vor, ein Multi-Agenten-System, das die Agile Methodik (AM) in das Framework integriert. Dieses System weist spezifische AM-Rollen wie Produktmanager, Entwickler und Tester verschiedenen Agenten zu, die dann gemeinsam Software basierend auf Benutzereingaben entwickeln. AgileCoder verbessert die Entwicklungseffizienz, indem er die Arbeit in Sprints organisiert und sich darauf konzentriert, die Software inkrementell durch Sprints zu entwickeln. Darüber hinaus führen wir den Dynamischen Code-Graph-Generator ein, ein Modul, das dynamisch einen Code-Abhängigkeitsgraphen erstellt, während Aktualisierungen am Codebestand vorgenommen werden. Dies ermöglicht es den Agenten, den Codebestand besser zu verstehen, was zu präziserer Codegenerierung und -modifikationen im gesamten Softwareentwicklungsprozess führt. AgileCoder übertrifft bestehende Benchmarks wie ChatDev und MetaGPT, setzt einen neuen Standard und zeigt die Fähigkeiten von Multi-Agenten-Systemen in fortgeschrittenen Softwaretechnikumgebungen auf. Unser Quellcode ist unter https://github.com/FSoft-AI4Code/AgileCoder verfügbar.

Von RAGs zu reichen Parametern: Untersuchung, wie Sprachmodelle externes Wissen gegenüber parametrischen Informationen für faktische Anfragen nutzen.
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Jun 18

ByHitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal, Reshmi Ghosh, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh

Die Retrieval Augmented Generation (RAG) verbessert die Fähigkeit von Sprachmodellen, mithilfe externer Kontexte zu argumentieren, um Antworten auf eine bestimmte Benutzeranfrage zu erweitern. Dieser Ansatz hat aufgrund praktischer Anwendungen in verschiedenen Bereichen wie der Suche, Fragebeantwortung und Chatbots an Popularität gewonnen. Allerdings ist die genaue Funktionsweise dieses Ansatzes nicht klar verstanden. In diesem Artikel untersuchen wir mechanistisch den RAG-Pipeline, um hervorzuheben, dass Sprachmodelle Abkürzungen nehmen und stark dazu neigen, nur die Kontextinformationen zu nutzen, um die Frage zu beantworten, wobei sie minimal auf ihr parametrisches Gedächtnis angewiesen sind. Wir untersuchen dieses mechanistische Verhalten in Sprachmodellen mit: (i) Kausaler Mediationsanalyse, um zu zeigen, dass das parametrische Gedächtnis minimal genutzt wird, wenn eine Frage beantwortet wird, und (ii) Aufmerksamkeitsbeiträgen und Ausschaltungen, um zu zeigen, dass der Reststrom des letzten Tokens nicht aus dem Subjekt-Token in der Frage angereichert wird, sondern aus anderen informativen Tokens im Kontext. Wir stellen fest, dass dieses ausgeprägte Abkürzungsverhalten sowohl bei LLaMa- als auch bei Phi-Modellen zutrifft.

Über den Antwort hinaus lernen: Schulung von Sprachmodellen mit Reflexion für mathematisches Denken
Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

Jun 17

ByZhihan Zhang, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia, Dong Yu, Meng Jiang

Das überwachte Feintuning verbessert die Problemlösungsfähigkeiten von Sprachmodellen bei verschiedenen mathematischen Denkaufgaben. Um solche Vorteile zu maximieren, konzentriert sich die bestehende Forschung darauf, den Trainingsdatensatz mit verschiedenen Datenvergrößerungstechniken zu erweitern, was für herkömmliche Einzelrunden-Frage-Antwort-Szenarien effektiv ist. Unsere Arbeit stellt eine neuartige Technik vor, die darauf abzielt, ein tieferes Verständnis der vorliegenden Trainingsprobleme zu fördern, um die Leistung nicht nur in herkömmlichen Einstellungen, sondern auch in komplexeren Szenarien zu verbessern, die reflektives Denken erfordern. Konkret schlagen wir reflektive Datenvergrößerung vor, eine Methode, die die Problembetrachtung in jede Trainingseinheit einbettet. Sie trainiert das Modell, alternative Perspektiven zu berücksichtigen und sich mit Abstraktionen und Analogien auseinanderzusetzen, um so ein gründliches Verständnis durch reflektives Denken zu fördern. Umfangreiche Experimente bestätigen die Erreichung unseres Ziels und unterstreichen die einzigartigen Vorteile unserer Methode sowie ihre ergänzende Natur im Vergleich zu bestehenden Vergrößerungstechniken.

SafeInfer: Kontextadaptive Dekodierungszeit-Sicherheitsausrichtung für große Sprachmodelle
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

Jun 18

BySomnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra

Sicherheitsausgerichtete Sprachmodelle zeigen oft fragile und unausgewogene Sicherheitsmechanismen, was die Wahrscheinlichkeit erhöht, unsichere Inhalte zu generieren. Darüber hinaus kann das Einbeziehen neuer Kenntnisse durch Bearbeitungstechniken in Sprachmodellen die Sicherheit weiter beeinträchtigen. Um diese Probleme anzugehen, schlagen wir SafeInfer vor, eine kontextadaptive, dekodierungszeitliche Sicherheitsausrichtungsstrategie zur Generierung sicherer Antworten auf Benutzeranfragen. SafeInfer besteht aus zwei Phasen: der Sicherheitsverstärkungsphase, die sich sicherer Demonstrationsbeispiele bedient, um die verborgenen Zustände des Modells anzupassen und die Wahrscheinlichkeit sichererer Ausgaben zu erhöhen, und der sicherheitsgeleiteten Dekodierungsphase, die die Tokenauswahl basierend auf sicherheitsoptimierten Verteilungen beeinflusst, um sicherzustellen, dass die generierten Inhalte den ethischen Richtlinien entsprechen. Darüber hinaus präsentieren wir HarmEval, einen neuartigen Benchmark für umfassende Sicherheitsevaluierungen, der entwickelt wurde, um potenzielle Missbrauchsszenarien gemäß den Richtlinien führender KI-Technologiegiganten zu behandeln.

RepLiQA: Ein Frage-Antwort-Datensatz zur Bewertung von LLMs anhand von ungesehenem Referenzinhalt
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

Jun 17

ByJoao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian

Große Sprachmodelle (LLMs) werden auf riesigen Datenmengen trainiert, die größtenteils automatisch aus dem Internet extrahiert werden. Diese Daten umfassen enzyklopädische Dokumente, die eine große Menge an Allgemeinwissen enthalten (z. B. Wikipedia), aber auch potenziell mit Benchmark-Datensätzen überlappen, die zur Evaluierung von LLMs verwendet werden. Daher ist die Bewertung von Modellen anhand von Testaufteilungen, die möglicherweise in den Trainingssatz gelangt sind, anfällig für irreführende Schlussfolgerungen. Um eine fundierte Bewertung von Sprachmodellen zu fördern, stellen wir einen neuen Testdatensatz namens RepLiQA vor, der für Frage-Antwort- und Themenabrufaufgaben geeignet ist. RepLiQA ist eine Sammlung von fünf Aufteilungen von Testsets, von denen vier vor dieser Veröffentlichung nicht ins Internet gestellt oder LLM-APIs ausgesetzt wurden. Jedes Beispiel in RepLiQA besteht aus (1) einem von einem menschlichen Annotator erstellten Referenzdokument, das ein imaginäres Szenario darstellt (z. B. ein Nachrichtenartikel), das nicht im Internet vorhanden ist; (2) einer Frage zum Thema des Dokuments; (3) einer aus dem Dokument direkt abgeleiteten richtigen Antwort; und (4) dem Absatz aus dem Referenzdokument, der die Antwort enthält. Daher können genaue Antworten nur generiert werden, wenn ein Modell relevante Inhalte im bereitgestellten Dokument finden kann. Wir führen einen groß angelegten Benchmark durch, der mehrere erstklassige LLMs umfasst, um Unterschiede in der Leistung verschiedener Modelle unterschiedlicher Typen und Größen in einem kontextbedingten Sprachmodellierungsumfeld aufzudecken. Veröffentlichte Aufteilungen von RepLiQA finden Sie hier: https://huggingface.co/datasets/ServiceNow/repliqa.

OlympicArena: Benchmarking multidisziplinäres kognitives Denken für Superintelligente KI
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Jun 18

ByZhen Huang, Zengzhi Wang, Shijie Xia, Xuefeng Li, Haoyang Zou, Ruijie Xu, Run-Ze Fan, Lyumanshan Ye, Ethan Chern, Yixin Ye, Yikai Zhang, Yuqing Yang, Ting Wu, Binjie Wang, Shichao Sun, Yang Xiao, Yiyuan Li, Fan Zhou, Steffi Chern, Yiwei Qin, Yan Ma, Jiadi Su, Yixiu Liu, Yuxiang Zheng, Shaoting Zhang, Dahua Lin, Yu Qiao, Pengfei Liu

Die Evolution der Künstlichen Intelligenz (KI) wurde maßgeblich durch Fortschritte in großen Sprachmodellen (LLMs) und großen multimodalen Modellen (LMMs) beschleunigt, die allmählich potenzielle kognitive Denkfähigkeiten in der Problemlösung und wissenschaftlichen Entdeckung (d. h. KI für Wissenschaft) zeigen, die einst ausschließlich dem menschlichen Intellekt vorbehalten waren. Um die Leistung aktueller Modelle in kognitiven Denkfähigkeiten umfassend zu bewerten, stellen wir OlympicArena vor, die 11.163 zweisprachige Probleme in reinen Text- und Text-Bild-Modalitäten umfasst. Diese Herausforderungen umfassen eine Vielzahl von Disziplinen aus sieben Bereichen und 62 internationalen olympischen Wettbewerben, die sorgfältig auf Datenleckagen überprüft wurden. Wir argumentieren, dass die Herausforderungen in den olympischen Wettbewerbsproblemen ideal sind, um die kognitive Denkfähigkeit der KI zu bewerten, aufgrund ihrer Komplexität und interdisziplinären Natur, die für die Bewältigung komplexer wissenschaftlicher Herausforderungen und die Förderung von Entdeckungen unerlässlich sind. Über die Bewertung der Leistung in verschiedenen Disziplinen anhand von reinen Antwortkriterien hinaus führen wir detaillierte Experimente und Analysen aus verschiedenen Perspektiven durch. Wir gehen auf die kognitive Denkfähigkeit der Modelle ein, ihre Leistung in verschiedenen Modalitäten und ihre Ergebnisse in Evaluierungen auf Prozessebene, die für Aufgaben mit komplexem Denken und langen Lösungen von entscheidender Bedeutung sind. Unsere umfangreichen Bewertungen zeigen, dass selbst fortschrittliche Modelle wie GPT-4o nur eine Gesamtgenauigkeit von 39,97% erreichen, was die aktuellen KI-Beschränkungen im komplexen Denken und der multimodalen Integration verdeutlicht. Durch die OlympicArena streben wir danach, die KI hin zu Superintelligenz voranzutreiben, um sie für die Bewältigung komplexerer Herausforderungen in Wissenschaft und darüber hinaus zu rüsten. Wir stellen auch eine umfassende Reihe von Ressourcen zur Unterstützung der KI-Forschung bereit, darunter einen Benchmark-Datensatz, eine Open-Source-Annotationplattform, ein detailliertes Evaluierungstool und eine Rangliste mit automatischen Einreichungsfunktionen.

Tokenisierung reicht nicht aus: Der Fluch der Tokenisierung
Tokenization Falling Short: The Curse of Tokenization

Jun 17

ByYekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li

Sprachmodelle unterteilen rohen Text in der Regel in Sequenzen von Teilwortidentifikatoren aus einem vordefinierten Vokabular, ein Prozess, der inhärent empfindlich auf typografische Fehler, Längenvariationen und weitgehend unempfindlich gegenüber der internen Struktur von Tokens ist - Probleme, die wir als das Fluch der Tokenisierung bezeichnen. In dieser Studie gehen wir auf diese Nachteile ein und zeigen, dass große Sprachmodelle (LLMs) anfällig für diese Probleme bleiben. Diese Studie untersucht systematisch diese Herausforderungen und ihren Einfluss auf LLMs anhand von drei zentralen Forschungsfragen: (1) komplexe Problemlösung, (2) Untersuchung der Tokenstruktur und (3) Widerstandsfähigkeit gegen typografische Variationen. Unsere Ergebnisse zeigen, dass das Skalieren von Modellparametern das Problem der Tokenisierung mildern kann; dennoch leiden LLMs weiterhin unter durch Tippfehler und andere Textformatvariationen induzierten Verzerrungen. Unsere Experimente zeigen, dass die Unterstützung von Teilwörtern, wie z.B. BPE-Dropout, dieses Problem mildern kann. Wir werden unseren Code und unsere Daten veröffentlichen, um weitere Forschung zu erleichtern.

Sicherheitsarithmetik: Ein Rahmenwerk für die Sicherheitsausrichtung von Sprachmodellen zur Testzeit durch Lenkung von Parametern und Aktivierungen
Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

Jun 17

ByRima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria

Die sichere Ausrichtung großer Sprachmodelle (LLMs) mit menschlichen Werten ist entscheidend, da sie integraler Bestandteil von Anwendungen wie Übersetzung und Fragebeantwortung werden. Aktuelle Ausrichtungsmethoden haben Schwierigkeiten mit dynamischen Benutzerabsichten und komplexen Zielen, was Modelle anfällig macht für die Erzeugung von schädlichen Inhalten. Wir schlagen Safety Arithmetic vor, ein trainingsfreies Framework zur Verbesserung der Sicherheit von LLMs in verschiedenen Szenarien: Basismodelle, überwachte feinabgestimmte Modelle (SFT) und bearbeitete Modelle. Safety Arithmetic beinhaltet Harm Direction Removal, um schädliche Inhalte zu vermeiden, und Safety Alignment, um sichere Antworten zu fördern. Darüber hinaus präsentieren wir NoIntentEdit, einen Datensatz, der Edit-Instanzen hervorhebt, die die Modellsicherheit gefährden könnten, wenn sie unbeabsichtigt verwendet werden. Unsere Experimente zeigen, dass Safety Arithmetic die Sicherheitsmaßnahmen signifikant verbessert, Über-Sicherheit reduziert und die Modellnutzen aufrechterhält, wodurch bestehende Methoden bei der Sicherstellung der sicheren Inhaltsgenerierung übertroffen werden.

Benchmarking der Multi-Bild-Verarbeitung in Seh- und Sprachmodellen: Wahrnehmung, Wissen, Schlussfolgerung und Mehrfach-Hop-Schlussfolgerung
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

Jun 18

ByBingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales

Der Fortschritt großer Sprachmodelle (LLMs) hat das Anwendungsspektrum in der natürlichen Sprachverarbeitung erheblich erweitert, wobei Multi-Modal-LMMs diese Fähigkeiten erweitern, um visuelle Daten zu integrieren und zu interpretieren. Allerdings konzentrieren sich bestehende Benchmarks für visuelle Sprachmodelle (VLMs) hauptsächlich auf Einzelbild-Eingaben und vernachlässigen den entscheidenden Aspekt des Verstehens von Multi-Bildern. In diesem Paper stellen wir einen Multi-Bild-Relationen-Benchmark MIRB vor, der entwickelt wurde, um die Fähigkeit von VLMs zu vergleichen, zu analysieren und über mehrere Bilder hinweg zu argumentieren. Unser Benchmark umfasst vier Kategorien: Wahrnehmung, visuelles Weltwissen, Argumentation und mehrstufige Argumentation. Durch eine umfassende Bewertung einer Vielzahl von Open-Source- und Closed-Source-Modellen zeigen wir, dass Open-Source-VLMs zwar gezeigt haben, dass sie sich in Einzelbild-Aufgaben der Leistung von GPT-4V annähern, jedoch eine signifikante Leistungslücke bei Multi-Bild-Argumentationsaufgaben besteht. Unsere Ergebnisse zeigen auch, dass selbst das modernste GPT-4V-Modell mit unserem Benchmark zu kämpfen hat, was die Notwendigkeit weiterer Forschung und Entwicklung in diesem Bereich unterstreicht. Wir glauben, dass unser Beitrag des MIRB als Testumgebung für die Entwicklung von Multi-Modal-Modellen der nächsten Generation dienen könnte.

HumanSplat: Verallgemeinerbares Single-Image Human Gaussian Splatting mit Strukturprioritäten
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors

Jun 18

ByPanwang Pan, Zhuo Su, Chenguo Lin, Zhen Fan, Yongjie Zhang, Zeming Li, Tingting Shen, Yadong Mu, Yebin Liu

Trotz der jüngsten Fortschritte bei hochauflösender menschlicher Rekonstruktionstechniken behindern die Anforderungen an dicht erfasste Bilder oder zeitaufwändige Optimierung pro Instanz erheblich ihre Anwendungen in breiteren Szenarien. Um diese Probleme anzugehen, präsentieren wir HumanSplat, das die 3D-Gaußsche Splatting-Eigenschaften eines beliebigen Menschen aus einem einzigen Eingabebild auf eine generalisierbare Weise vorhersagt. Insbesondere umfasst HumanSplat ein 2D-Multi-View-Diffusionsmodell und einen latenten Rekonstruktions-Transformer mit menschlichen Strukturpriors, die geometrische Priors und semantische Merkmale geschickt in einem vereinheitlichten Rahmen integrieren. Eine hierarchische Verlustfunktion, die menschliche semantische Informationen einbezieht, wurde zusätzlich entwickelt, um eine hochauflösende Texturmodellierung zu erreichen und die geschätzten mehreren Ansichten besser zu beschränken. Umfassende Experimente an Standard-Benchmarks und In-the-Wild-Bildern zeigen, dass HumanSplat bestehende State-of-the-Art-Methoden bei der Erzielung fotorealistischer Neuansicht-Synthese übertrifft.

Groß angelegtes Transfer-Learning für tabellarische Daten mittels Sprachmodellierung
Large Scale Transfer Learning for Tabular Data via Language Modeling

Jun 17

ByJosh Gardner, Juan C. Perdomo, Ludwig Schmidt

Tabellendaten - strukturierte, heterogene Daten im Tabellenformat mit Zeilen und Spalten - werden in der Praxis in vielen Bereichen weit verbreitet eingesetzt. Obwohl neuere Grundlagenmodelle den Bedarf an der Entwicklung aufgabenspezifischer Datensätze und Vorhersagemodelle in Bereichen wie der Sprachmodellierung und der Computer Vision reduziert haben, hat dieses Transfer-Learning-Paradigma keinen ähnlichen Einfluss im Bereich tabellarischer Daten gehabt. In dieser Arbeit möchten wir diese Lücke verkleinern und TabuLa-8B vorstellen, ein Sprachmodell für tabellarische Vorhersagen. Wir definieren einen Prozess zur Extraktion eines großen, hochwertigen Trainingsdatensatzes aus dem TabLib-Korpus und schlagen Methoden für die Filterung und Qualitätskontrolle von Tabellendaten vor. Unter Verwendung des resultierenden Datensatzes, der über 1,6 Milliarden Zeilen aus 3,1 Millionen eindeutigen Tabellen umfasst, feinabstimmen wir ein großes Sprachmodell Llama 3-8B (LLM) für die Vorhersage von tabellarischen Daten (Klassifizierung und gruppierte Regression) unter Verwendung eines neuartigen Verpackungs- und Aufmerksamkeitsschemas für tabellarische Vorhersagen. Durch die Evaluation anhand eines Testsets von 329 Datensätzen stellen wir fest, dass TabuLa-8B eine Null-Schuss-Genauigkeit auf unbekannten Tabellen aufweist, die über 15 Prozentpunkte höher ist als zufälliges Raten, eine Leistung, die mit bestehenden modernsten tabellarischen Vorhersagemodellen (z. B. XGBoost, TabPFN) nicht möglich ist. Im Few-Shot-Szenario (1-32 Schüsse), ohne Feinabstimmung auf die Ziel-Datensätze, ist TabuLa-8B 5-15 Prozentpunkte genauer als XGBoost- und TabPFN-Modelle, die explizit auf gleichen oder sogar bis zu 16-mal mehr Daten trainiert wurden. Wir veröffentlichen unser Modell, den Code und die Daten zusammen mit der Veröffentlichung dieses Papers.

Nicht alle Aufforderungen sind gleich: Aufforderungsbasiertes Beschneiden von Text-zu-Bild-Diffusionsmodellen
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

Jun 17

ByAlireza Ganjdanesh, Reza Shirkavand, Shangqian Gao, Heng Huang

Text-zu-Bild (T2I) Diffusionsmodelle haben beeindruckende Bildgenerierungsfähigkeiten gezeigt. Ihre hohe Rechenintensität hindert jedoch ressourcenbeschränkte Organisationen daran, T2I-Modelle nach dem Feintuning auf ihren internen Ziel-Daten einzusetzen. Während Beschneidungstechniken eine potenzielle Lösung bieten, um die Rechenlast von T2I-Modellen zu reduzieren, verwenden statische Beschneidungsmethoden dasselbe beschnittene Modell für alle Eingabeaufforderungen, ohne auf die unterschiedlichen Kapazitätsanforderungen verschiedener Aufforderungen einzugehen. Die dynamische Beschneidung behebt dieses Problem, indem für jede Aufforderung ein separates Teilnetzwerk verwendet wird, aber sie verhindert die Batch-Parallelität auf GPUs. Um diese Einschränkungen zu überwinden, stellen wir Adaptive Prompt-basierte Beschneidung (APTP) vor, eine neuartige auf Aufforderungen basierende Beschneidungsmethode, die für T2I-Diffusionsmodelle entwickelt wurde. Zentral für unseren Ansatz ist ein Aufforderungsrouter-Modell, das lernt, die erforderliche Kapazität für eine Eingabetext-Aufforderung zu bestimmen und sie einem Architekturcode zuzuweisen, basierend auf einem insgesamt gewünschten Rechenbudget für Aufforderungen. Jeder Architekturcode repräsentiert ein spezialisiertes Modell, das auf die ihm zugewiesenen Aufforderungen zugeschnitten ist, und die Anzahl der Codes ist ein Hyperparameter. Wir trainieren den Aufforderungsrouter und die Architekturcodes unter Verwendung von kontrastivem Lernen, um sicherzustellen, dass ähnliche Aufforderungen nahe beieinander liegenden Codes zugeordnet werden. Darüber hinaus verwenden wir den optimalen Transport, um zu verhindern, dass die Codes in einen einzigen zusammenfallen. Wir zeigen die Wirksamkeit von APTP, indem wir Stable Diffusion (SD) V2.1 unter Verwendung von CC3M und COCO als Ziel-Datensätze beschneiden. APTP übertrifft die Einzelmodell-Beschneidungs-Baselines in Bezug auf FID, CLIP und CMMD-Werte. Unsere Analyse der von APTP gelernten Cluster zeigt, dass sie semantisch sinnvoll sind. Wir zeigen auch, dass APTP automatisch zuvor empirisch herausfordernde Aufforderungen für SD entdecken kann, z. B. Aufforderungen zur Generierung von Textbildern, indem sie diesen höheren Kapazitätscodes zuweist.

Sprachmodelle sind erstaunlich anfällig für Medikamentennamen in biomedizinischen Benchmarks.
Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

Jun 17

ByJack Gallifant, Shan Chen, Pedro Moreira, Nikolaj Munch, Mingye Gao, Jackson Pond, Leo Anthony Celi, Hugo Aerts, Thomas Hartvigsen, Danielle Bitterman

Medizinisches Wissen ist kontextabhängig und erfordert konsistentes Argumentieren über verschiedene natürlichsprachliche Ausdrücke semantisch äquivalenter Phrasen. Dies ist besonders wichtig für Arzneimittelnamen, da Patienten oft Markennamen wie Advil oder Tylenol anstelle ihrer generischen Äquivalente verwenden. Um dies zu untersuchen, haben wir einen neuen robusten Datensatz namens RABBITS erstellt, um Leistungsunterschiede bei medizinischen Benchmarks nach dem Austausch von Marken- und generischen Arzneimittelnamen mithilfe von Expertenannotationen von Ärzten zu bewerten. Wir bewerten sowohl Open-Source- als auch API-basierte LLMs in MedQA und MedMCQA und zeigen eine konsistente Leistungseinbuße von 1-10\%. Darüber hinaus identifizieren wir eine potenzielle Ursache dieser Fragilität als die Kontamination von Testdaten in weit verbreiteten Vortrainingsdatensätzen. Der gesamte Code ist unter https://github.com/BittermanLab/RABBITS verfügbar, und ein HuggingFace-Leaderboard ist unter https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard abrufbar.

Schätzung von Wissen in großen Sprachmodellen ohne Erzeugung eines einzelnen Tokens.
Estimating Knowledge in Large Language Models Without Generating a Single Token

Jun 18

ByDaniela Gottesman, Mor Geva

Zur Bewertung des Wissens in großen Sprachmodellen (LLMs) verwenden aktuelle Methoden Abfragen des Modells und bewerten dann die generierten Antworten. In dieser Arbeit stellen wir die Frage, ob die Bewertung erfolgen kann, bevor das Modell Text generiert hat. Konkret geht es darum, abzuschätzen, wie gut ein Modell über eine bestimmte Entität informiert ist, nur anhand seiner internen Berechnungen. Wir untersuchen diese Frage anhand von zwei Aufgaben: Gegeben eine bestimmte Entität, soll das Ziel sein, (a) die Fähigkeit des Modells vorherzusagen, allgemeine Fragen über die Entität zu beantworten, und (b) die Faktentreue der vom Modell über die Entität generierten Antworten. Experimente mit verschiedenen LLMs zeigen, dass KEEN, eine einfache Sonde, die über interne Entitätsrepräsentationen trainiert wurde, bei beiden Aufgaben erfolgreich ist - was stark mit der QA-Genauigkeit des Modells pro Entität und FActScore korreliert, einer aktuellen Faktentreue-Metrik bei offener Generierung. Darüber hinaus passt sich KEEN natürlich dem Abschwächungsverhalten des Modells an und spiegelt treu Veränderungen im Wissensstand des Modells nach Feinabstimmung wider. Schließlich zeigen wir eine interpretierbarere, aber ebenso leistungsfähige Variante von KEEN, die eine kleine Menge von Tokens hervorhebt, die mit dem Wissensmangel des Modells korrelieren. Da KEEN einfach und leichtgewichtig ist, kann es genutzt werden, um Lücken und Cluster im Entitätswissen von LLMs zu identifizieren und Entscheidungen wie die Erweiterung von Abfragen mit Retrieval zu lenken.

Von Crowdsourcing-Daten zu hochwertigen Benchmarks: Arena-Hard und BenchBuilder-Pipeline
From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline

Jun 17

ByTianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica

Die rasante Entwicklung von Sprachmodellen hat die Notwendigkeit der Entwicklung anspruchsvollerer Benchmarks mit sich gebracht. Aktuelle statische Benchmarks haben oft Schwierigkeiten, die Fähigkeiten verschiedener Modelle konsistent zu unterscheiden und entsprechen nicht den Vorlieben realer Benutzer. Andererseits sammeln lebendige, von der Crowd erstellte Plattformen wie die Chatbot Arena eine Vielzahl natürlicher Anfragen und Benutzerfeedbacks. Diese Anfragen variieren jedoch in ihrer Komplexität, und das Feedback kann offline nicht auf neue Modelle angewendet werden. Um sicherzustellen, dass Benchmarks mit der Entwicklung von LLMs Schritt halten, untersuchen wir, wie Benchmarks hinsichtlich ihrer Fähigkeit, Modelle sicher voneinander zu trennen, und ihrer Übereinstimmung mit menschlichen Vorlieben bewertet werden können. Unter diesen Grundsätzen haben wir BenchBuilder entwickelt, einen lebendigen Benchmark, der hochwertige Anfragen aus Live-Datenquellen filtert, um eine Offline-Bewertung anhand frischer, anspruchsvoller Anfragen zu ermöglichen. BenchBuilder identifiziert sieben Indikatoren einer hochwertigen Anfrage, wie z.B. den Bedarf an Fachwissen, und nutzt einen LLM-Annotator, um eine hochwertige Teilmenge von Anfragen aus verschiedenen Themenclustern auszuwählen. Der LLM-Bewertungsprozess verwendet einen LLM-Richter, um einen vollständig automatisierten, hochwertigen und ständig aktualisierten Benchmark sicherzustellen. Wir wenden BenchBuilder auf Anfragen aus der Chatbot Arena an, um Arena-Hard-Auto v0.1 zu erstellen: 500 anspruchsvolle Benutzeranfragen aus einer Vielzahl von Aufgaben. Arena-Hard-Auto v0.1 bietet 3-mal engere Vertrauensintervalle als MT-Bench und erreicht eine Spitzenübereinstimmung von 89,1% mit menschlichen Präferenzranglisten, alles zu Kosten von nur 25 $ und ohne menschliche Labeler. Die BenchBuilder-Pipeline verbessert Evaluierungsbenchmarks und bietet Entwicklern ein wertvolles Werkzeug, um hochwertige Benchmarks aus umfangreichen Daten mit minimalem Aufwand zu extrahieren.

Mischung von Skalen: Speichereffiziente Token-adaptive Binarisierung für große Sprachmodelle
Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

Jun 18

ByDongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim

Die Binarisierung, die Gewichtsparameter in binäre Werte umwandelt, hat sich als eine effektive Strategie zur Reduzierung der Größe großer Sprachmodelle (LLMs) erwiesen. Allerdings verringern typische Binarisierungstechniken die sprachliche Effektivität von LLMs erheblich. Um dieses Problem zu lösen, stellen wir eine neue Binarisierungstechnik namens Mixture of Scales (BinaryMoS) vor. Im Gegensatz zu herkömmlichen Methoden verwendet BinaryMoS mehrere Skalierungsexperten für binäre Gewichte, die diese Experten dynamisch für jedes Token zusammenführen, um adaptiv Skalierungsfaktoren zu generieren. Dieser tokenadaptive Ansatz steigert die Repräsentationskraft binarisierter LLMs, indem er kontextuelle Anpassungen an die Werte binärer Gewichte ermöglicht. Darüber hinaus, da dieser adaptive Prozess nur die Skalierungsfaktoren betrifft und nicht die gesamte Gewichtsmatrix, behält BinaryMoS eine ähnliche Komprimierungseffizienz wie traditionelle statische Binarisierungsmethoden bei. Unsere experimentellen Ergebnisse zeigen, dass BinaryMoS herkömmliche Binarisierungstechniken in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben übertrifft und sogar 2-Bit-Quantisierungsmethoden übertrifft, während es eine ähnliche Modellgröße wie statische Binarisierungstechniken beibehält.

BPO: Die Leistungssteigerung des Online-Präferenzlernens durch Einhaltung der Nähe des Verhaltens LLM.
BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM

Jun 18

ByWenda Xu, Jiachen Li, William Yang Wang, Lei Li

Die direkte Ausrichtung von Präferenzen (DAP) hat sich als vielversprechendes Paradigma für die Ausrichtung großer Sprachmodelle (LLMs) an menschliche Wünsche aus zuvor gesammelten, offline Präferenzdatensätzen herauskristallisiert. Während aktuelle Studien darauf hindeuten, dass bestehende offline DAP-Methoden direkt von Online-Trainingssamples profitieren können, betonen wir die Notwendigkeit, spezifische Online-DAP-Algorithmen zu entwickeln, um die volle Leistungsfähigkeit des Online-Trainings auszuschöpfen. Insbesondere identifizieren wir, dass das erlernte LLM der Nähe des Verhaltens-LLM entsprechen sollte, das die Trainingssamples sammelt. Zu diesem Zweck schlagen wir die Online-Präferenzoptimierung in der Nähe des Verhaltens-LLM (BPO) vor und betonen die Bedeutung der Konstruktion einer angemessenen Vertrauensregion für die LLM-Ausrichtung. Wir führen umfangreiche Experimente durch, um die Wirksamkeit und Anwendbarkeit unseres Ansatzes zu validieren, indem wir ihn mit verschiedenen DAP-Methoden integrieren, was zu signifikanten Leistungsverbesserungen über eine Vielzahl von Aufgaben führt, wenn mit derselben Menge an Präferenzdaten trainiert wird. Selbst wenn nur eine zusätzliche Datensammlungsphase eingeführt wird, verbessert unser Online-BPO seine offline DAP-Basislinie von 72,0 % auf 80,2 % bei TL;DR und von 82,2 % auf 89,1 % bei Anthropischer Hilfsbereitschaft in Bezug auf den Gewinnanteil gegenüber menschlichem Referenztext.

Über: Ein räumlich-zeitliches Video-Anpassungsrahmenwerk für globale und lokale Videobearbeitung
VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

Jun 18

ByJing Gu, Yuwei Fang, Ivan Skorokhodov, Peter Wonka, Xinya Du, Sergey Tulyakov, Xin Eric Wang

Die Videobearbeitung bildet das Fundament digitaler Medien, von Unterhaltung und Bildung bis hin zur professionellen Kommunikation. Bisherige Methoden vernachlässigen jedoch oft die Notwendigkeit, globale und lokale Kontexte umfassend zu verstehen, was zu ungenauen und inkonsistenten Bearbeitungen in der Raum-Zeit-Dimension führt, insbesondere bei langen Videos. In diesem Paper stellen wir VIA vor, ein vereinheitlichtes raumzeitliches Videoanpassungsframework für globale und lokale Videobearbeitung, das die Grenzen der konsistenten Bearbeitung von kurzen Videos erweitert. Zunächst gewährleistet VIA zur Sicherung der lokalen Konsistenz innerhalb einzelner Frames eine neuartige Testzeit-Bearbeitungsanpassungsmethode, die ein vortrainiertes Bildbearbeitungsmodell anpasst, um die Konsistenz zwischen potenziellen Bearbeitungsrichtungen und der Textanweisung zu verbessern, und angepasste maskierte latente Variablen für präzise lokale Steuerung verwendet. Darüber hinaus führen wir zur Aufrechterhaltung der globalen Konsistenz über die Videosequenz eine raumzeitliche Anpassung ein, die konsistente Aufmerksamkeitsvariablen in Schlüsselbildern anpasst und sie strategisch über die gesamte Sequenz anwendet, um die Bearbeitungseffekte zu realisieren. Umfangreiche Experimente zeigen, dass unser VIA-Ansatz im Vergleich zu Basislinienmethoden Bearbeitungen produziert, die treuer zu den Ausgangsvideos sind, kohärenter im raumzeitlichen Kontext und präziser in der lokalen Steuerung. Vor allem zeigen wir, dass VIA konsistente Bearbeitungen langer Videos in Minuten erreichen kann, was das Potenzial für fortgeschrittene Videobearbeitungsaufgaben über lange Videosequenzen freisetzt.

Hierarchische Eingabe-Taxonomie: Ein universeller Bewertungsrahmen für große Sprachmodelle
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models

Jun 18

ByDevichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha

Die Bewertung der Wirksamkeit großer Sprachmodelle (LLMs) bei der Bewältigung verschiedener Aufgaben ist entscheidend, um ihre Stärken und Schwächen zu verstehen. Herkömmliche Evaluierungstechniken wenden in der Regel eine einzige Aufforderungsstrategie einheitlich auf Datensätze an, ohne die unterschiedlichen Grade der Aufgabenschwierigkeit zu berücksichtigen. Wir stellen die Hierarchische Aufforderungstaxonomie (HPT) vor, eine Taxonomie, die ein Hierarchisches Aufforderungsframework (HPF) verwendet, das aus fünf einzigartigen Aufforderungsstrategien besteht, angeordnet von der einfachsten bis zur komplexesten, um LLMs genauer zu bewerten und eine klarere Perspektive zu bieten. Diese Taxonomie weist Datensätzen sowie LLMs basierend auf den Regeln der Taxonomie eine Punktzahl zu, die als Hierarchischer Aufforderungspunktewert (HP-Score) bezeichnet wird, um ein differenziertes Verständnis ihrer Fähigkeit zur Lösung verschiedener Aufgaben zu bieten und ein universelles Maß für die Aufgabenschwierigkeit anzubieten. Darüber hinaus stellen wir das Adaptive Hierarchische Aufforderungsframework vor, das die Auswahl geeigneter Aufforderungsstrategien für jede Aufgabe automatisiert. Diese Studie vergleicht manuelle und adaptive hierarchische Aufforderungsframeworks unter Verwendung von vier anweisungsgesteuerten LLMs, nämlich Llama 3 8B, Phi 3 3.8B, Mistral 7B und Gemma 7B, über vier Datensätze: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) und SamSum. Experimente zeigen die Wirksamkeit von HPT auf und bieten eine zuverlässige Möglichkeit, verschiedene Aufgaben und LLM-Fähigkeiten zu vergleichen. Dieser Artikel führt zur Entwicklung eines universellen Bewertungsmaßstabs, der sowohl zur Bewertung der Komplexität der Datensätze als auch der Fähigkeiten von LLMs verwendet werden kann. Die Implementierung sowohl des manuellen HPF als auch des adaptiven HPF ist öffentlich verfügbar.

Oberflächenanpassung: Starke Modelle können schwache Modelle bei der Generalisierung von schwach zu stark täuschen.
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

Jun 17

ByWenkai Yang, Shiqi Shen, Guangyao Shen, Zhi Gong, Yankai Lin

Die Superausrichtung, bei der Menschen schwache Aufsichtspersonen von übermenschlichen Modellen sind, ist zu einem wichtigen und weit verbreiteten Thema in der aktuellen Ära der schnellen Entwicklung von großen Sprachmodellen (LLMs) geworden. Die jüngste Arbeit untersucht dieses Problem vorläufig, indem schwache Modelle starke Modelle überwachen. Es wurde festgestellt, dass schwach überwachte starke Schüler konsequent schwache Lehrer in Richtung des Ausrichtungsziels übertreffen können, was zu einem Phänomen der schwach-zu-starken Verallgemeinerung führt. Wir sind jedoch besorgt, ob hinter einem so vielversprechenden Phänomen ein Problem der schwach-zu-starken Täuschung besteht, bei der starke Modelle schwache Modelle täuschen können, indem sie in Bereichen, die schwache Modelle kennen, gut ausgerichtet erscheinen lassen, aber in Fällen, in denen schwache Modelle keine Kenntnisse haben, fehlgeleitetes Verhalten produzieren. Wir unternehmen dann einen ersten Schritt zur Erkundung dieses Sicherheitsproblems in einem spezifischen, aber realistischen Mehrziel-Ausrichtungsfall, bei dem möglicherweise einige Ausrichtungsziele miteinander in Konflikt stehen (z. B. Hilfreichkeit vs. Harmlosigkeit). Ein solcher Konflikt kann dazu führen, dass starke Modelle schwache Modelle in einer Ausrichtungsdimension täuschen, um in einer anderen Ausrichtungsdimension hohe Belohnungen zu erzielen. Unsere Experimente sowohl in der Belohnungsmodellierungsaufgabe als auch im Szenario der Präferenzoptimierung zeigen: (1) die Existenz der schwach-zu-starken Täuschung; (2) das Täuschungsphänomen kann sich verstärken, wenn die Fähigkeitslücke zwischen schwachen und starken Modellen zunimmt. Wir diskutieren auch potenzielle Lösungen und stellen fest, dass die Verwendung eines Zwischenmodells im Bootstrapping das Täuschungsphänomen in gewissem Maße mildern kann. Unsere Arbeit hebt die dringende Notwendigkeit hervor, mehr Aufmerksamkeit auf die wahre Zuverlässigkeit der Superausrichtung zu richten.

JEN-1 DreamStyler: Individuelles musikalisches Konzeptlernen durch die Feinabstimmung zentraler Parameter.
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

Jun 18

ByBoyu Chen, Peike Li, Yao Yao, Alex Wang

Große Modelle für die Generierung von Text-zu-Musik haben signifikante Fortschritte erzielt, indem sie die Erstellung hochwertiger und vielfältiger musikalischer Kompositionen aus bereitgestellten Textvorgaben erleichtern. Allerdings können Eingabetextvorgaben die Benutzeranforderungen möglicherweise nicht präzise erfassen, insbesondere wenn das Ziel darin besteht, Musik zu generieren, die ein bestimmtes Konzept verkörpert, das aus einer festgelegten Referenzsammlung abgeleitet wurde. In diesem Papier schlagen wir eine neuartige Methode für die maßgeschneiderte Generierung von Text-zu-Musik vor, die das Konzept aus einer zweiminütigen Referenzmusik erfassen und ein neues Musikstück entsprechend dem Konzept generieren kann. Dies erreichen wir, indem wir ein vortrainiertes Text-zu-Musik-Modell mithilfe der Referenzmusik feinabstimmen. Direktes Feintuning aller Parameter führt jedoch zu Overfitting-Problemen. Um dieses Problem zu lösen, schlagen wir eine Methode zur Feinabstimmung von Schlüsselparametern vor, die es dem Modell ermöglicht, das neue Konzept zu assimilieren, während es seine ursprünglichen generativen Fähigkeiten bewahrt. Darüber hinaus identifizieren wir einen potenziellen Konflikt von Konzepten bei der Einführung mehrerer Konzepte in das vortrainierte Modell. Wir präsentieren eine Strategie zur Konzeptverbesserung, um mehrere Konzepte zu unterscheiden, sodass das feinabgestimmte Modell Musik generieren kann, die entweder einzelne oder mehrere Konzepte gleichzeitig einbezieht. Da wir die ersten sind, die an der Aufgabe der maßgeschneiderten Musikgenerierung arbeiten, stellen wir auch einen neuen Datensatz und ein Bewertungsprotokoll für die neue Aufgabe vor. Unser vorgeschlagener Jen1-DreamStyler übertrifft mehrere Basislinien sowohl in qualitativen als auch quantitativen Bewertungen. Demos sind verfügbar unter https://www.jenmusic.ai/research#DreamStyler.

Adversariale Angriffe auf multimodale Agenten
Adversarial Attacks on Multimodal Agents

Jun 18

ByChen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan

Vision-enabled Language Models (VLMs) werden nun verwendet, um autonome multimodale Agenten zu entwickeln, die in der Lage sind, Aktionen in realen Umgebungen auszuführen. In diesem Artikel zeigen wir, dass multimodale Agenten neue Sicherheitsrisiken aufwerfen, obwohl die Attacke auf Agenten aufgrund des begrenzten Zugangs zu und des Wissens über die Umgebung anspruchsvoller ist als frühere Angriffe. Unsere Angriffe verwenden adversarielle Textzeichenfolgen, um eine Gradienten-basierte Störung über ein Auslösebild in der Umgebung zu lenken: (1) Unser Captioner-Angriff zielt auf White-Box-Captioner ab, wenn sie verwendet werden, um Bilder in Bildunterschriften umzuwandeln und diese als zusätzliche Eingaben für das VLM zu verwenden; (2) Unser CLIP-Angriff greift eine Gruppe von CLIP-Modellen gemeinsam an, was auf proprietäre VLMs übertragen werden kann. Zur Bewertung der Angriffe haben wir VisualWebArena-Adv erstellt, eine Reihe von adversariellen Aufgaben basierend auf VisualWebArena, einer Umgebung für webbasierte multimodale Agentenaufgaben. Innerhalb einer L-Infinity-Norm von 16/256 auf einem einzelnen Bild kann der Captioner-Angriff einen mit Bildunterschriften erweiterten GPT-4V-Agenten dazu bringen, die adversariellen Ziele mit einer Erfolgsquote von 75% zu erreichen. Wenn wir den Captioner entfernen oder GPT-4V verwenden, um seine eigenen Bildunterschriften zu generieren, kann der CLIP-Angriff Erfolgsraten von 21% bzw. 43% erzielen. Experimente mit Agenten, die auf anderen VLMs basieren, wie Gemini-1.5, Claude-3 und GPT-4o, zeigen interessante Unterschiede in ihrer Robustheit. Eine weitere Analyse zeigt mehrere Schlüsselfaktoren auf, die zum Erfolg des Angriffs beitragen, und wir diskutieren auch die Auswirkungen auf Verteidigungsstrategien. Projektseite: https://chenwu.io/attack-agent Code und Daten: https://github.com/ChenWu98/agent-attack

Nicht mischbare Diffusion: Beschleunigung des Diffusionstrainings mit Rauschen Zuweisung
Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment

Jun 18

ByYiheng Li, Heyang Jiang, Akio Kodaira, Masayoshi Tomizuka, Kurt Keutzer, Chenfeng Xu

In diesem Paper weisen wir darauf hin, dass eine suboptimale Rauschdaten-Zuordnung zu einem langsamen Training von Diffusionsmodellen führt. Während des Diffusionstrainings verbreiten aktuelle Methoden jedes Bild über den gesamten Rauschraum, was zu einer Mischung aller Bilder an jedem Punkt in der Rauschschicht führt. Wir betonen, dass diese zufällige Mischung von Rauschdaten-Zuordnungen die Optimierung der Entrauschungsfunktion in Diffusionsmodellen erschwert. Inspiriert von dem unvermischbaren Phänomen in der Physik schlagen wir die Immiscible Diffusion vor, eine einfache und effektive Methode, um die zufällige Mischung von Rauschdaten-Zuordnungen zu verbessern. In der Physik kann die Mischbarkeit je nach verschiedenen intermolekularen Kräften variieren. Somit bedeutet Unvermischbarkeit, dass die Vermischung der molekularen Quellen unterscheidbar ist. Inspiriert davon schlagen wir eine Zuweisungs-und-Diffusion-Trainingsstrategie vor. Spezifisch weisen wir vor der Diffusion der Bilddaten in den Rausch den Bilddaten das Zielrauschen zu, indem wir die Gesamtdistanz der Bild-Rausch-Paare in einem Mini-Batch minimieren. Die Zuweisungsfunktionen wirken analog zu externen Kräften, um die diffundierbaren Bereiche der Bilder zu trennen und somit die inhärenten Schwierigkeiten im Diffusionstraining zu mildern. Unser Ansatz ist bemerkenswert einfach und erfordert nur eine Codezeile, um den diffundierbaren Bereich für jedes Bild zu begrenzen, während die Gaußsche Verteilung des Rauschens erhalten bleibt. Dies stellt sicher, dass jedes Bild nur in die nahegelegenen Rauschbereiche projiziert wird. Um die hohe Komplexität des Zuweisungsalgorithmus zu bewältigen, verwenden wir eine quantisierte Zuweisungsmethode, um den Rechenaufwand auf ein vernachlässigbares Niveau zu reduzieren. Experimente zeigen, dass unsere Methode eine bis zu 3-fach schnellere Schulung für Konsistenzmodelle und DDIM auf dem CIFAR-Datensatz erreicht und bis zu 1,3-fach schneller auf CelebA-Datensätzen für Konsistenzmodelle. Darüber hinaus führen wir eine gründliche Analyse zur Immiscible Diffusion durch, die aufzeigt, wie sie die Geschwindigkeit des Diffusionstrainings verbessert und gleichzeitig die Treue erhöht.

Gemisch von Unterräumen in der Anpassung an niedrigrangige Modelle
Mixture-of-Subspaces in Low-Rank Adaptation

Jun 16

ByTaiqiang Wu, Jiahao Wang, Zhe Zhao, Ngai Wong

In diesem Paper stellen wir eine von Unterräumen inspirierte Methode zur Anpassung von niedriger Rangordnung (Low-Rank Adaptation, LoRA) vor, die rechnerisch effizient, einfach umzusetzen und leicht auf große Sprach-, multimodale und Diffusionsmodelle anwendbar ist. Zunächst zerlegen wir die Gewichte von LoRA äquivalent in zwei Unterräume und stellen fest, dass eine einfache Vermischung von ihnen die Leistung verbessern kann. Um ein solches Phänomen zu untersuchen, betrachten wir es durch eine fein abgestufte Unterraumlinse und zeigen, dass eine solche Modifikation äquivalent dazu ist, einen festen Mischer zur Verschmelzung der Unterräume zu verwenden. Um flexibler zu sein, lernen wir den Mischer gemeinsam mit den ursprünglichen LoRA-Gewichten und bezeichnen die Methode als Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA übertrifft konsequent LoRA in Aufgaben in verschiedenen Modalitäten, einschließlich Common-Sense-Argumentation, visueller Anleitungseinstellung und subjektgesteuerter Text-zu-Bild-Erzeugung, was seine Wirksamkeit und Robustheit zeigt. Der Code ist verfügbar unter https://github.com/wutaiqiang/MoSLoRA.