HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

Add-it: Training-freies Objekteinfügen in Bildern mit vortrainierten Diffusionsmodellen
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

Nov 11

ByYoad Tewel, Rinon Gal, Dvir Samuel Yuval Atzmon, Lior Wolf, Gal Chechik

Das Hinzufügen von Objekten in Bildern basierend auf Textanweisungen ist eine anspruchsvolle Aufgabe im semantischen Bildbearbeitungsbereich, die ein Gleichgewicht zwischen der Bewahrung der Originalszene und der nahtlosen Integration des neuen Objekts an einem passenden Ort erfordert. Trotz umfangreicher Bemühungen haben bestehende Modelle oft Schwierigkeiten mit diesem Gleichgewicht, insbesondere bei der Suche nach einem natürlichen Ort für das Hinzufügen eines Objekts in komplexen Szenen. Wir stellen Add-it vor, einen trainingsfreien Ansatz, der die Aufmerksamkeitsmechanismen von Diffusionsmodellen erweitert, um Informationen aus drei Schlüsselquellen zu integrieren: dem Szenenbild, der Textanweisung und dem generierten Bild selbst. Unser gewichteter erweiterter Aufmerksamkeitsmechanismus gewährleistet strukturelle Konsistenz und feine Details und sorgt gleichzeitig für eine natürliche Platzierung des Objekts. Ohne aufgabenspezifisches Feintuning erzielt Add-it Spitzenleistungsergebnisse sowohl bei echten als auch bei generierten Bild-Einfüge-Benchmarks, einschließlich unseres neu erstellten "Additing Affordance Benchmark" zur Bewertung der Plausibilität der Objektplatzierung, wobei überlegene Ergebnisse im Vergleich zu überwachten Methoden erzielt werden. Menschliche Bewertungen zeigen, dass Add-it in über 80% der Fälle bevorzugt wird und es zeigt auch Verbesserungen in verschiedenen automatisierten Metriken.

OmniEdit: Aufbau von Bildbearbeitungs-Allrounder-Modellen durch spezialisierte Überwachung
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

Nov 11

ByCong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen

Anleitungsgesteuerte Bildbearbeitungsmethoden haben ein signifikantes Potenzial gezeigt, indem Diffusionsmodelle auf automatisch synthetisierten oder manuell annotierten Bildbearbeitungspaaren trainiert wurden. Allerdings bleiben diese Methoden weit von praktischen Anwendungen im wirklichen Leben entfernt. Wir identifizieren drei Hauptprobleme, die zu dieser Kluft beitragen. Erstens haben bestehende Modelle aufgrund des voreingenommenen Syntheseprozesses begrenzte Bearbeitungsfähigkeiten. Zweitens werden diese Methoden mit Datensätzen trainiert, die ein hohes Maß an Rauschen und Artefakten aufweisen. Dies ist auf die Anwendung einfacher Filtermethoden wie CLIP-Score zurückzuführen. Drittens sind all diese Datensätze auf eine einzige niedrige Auflösung und ein festes Seitenverhältnis beschränkt, was die Vielseitigkeit zur Bewältigung von Anwendungsfällen im wirklichen Leben einschränkt. In diesem Artikel präsentieren wir \omniedit, das ein allmächtiger Editor ist, um sieben verschiedene Bildbearbeitungsaufgaben nahtlos mit jedem Seitenverhältnis zu bewältigen. Unser Beitrag besteht aus vier Teilen: (1) \omniedit wird trainiert, indem die Aufsicht von sieben verschiedenen Spezialistenmodellen genutzt wird, um die Abdeckung der Aufgaben zu gewährleisten. (2) Wir nutzen eine Importance-Sampling basierend auf den Scores großer multimodaler Modelle (wie GPT-4o) anstelle des CLIP-Scores, um die Datenqualität zu verbessern. (3) Wir schlagen eine neue Bearbeitungsarchitektur namens EditNet vor, um die Bearbeitungserfolgsrate erheblich zu steigern. (4) Wir stellen Bilder mit verschiedenen Seitenverhältnissen bereit, um sicherzustellen, dass unser Modell jedes Bild in freier Wildbahn verarbeiten kann. Wir haben einen Testdatensatz zusammengestellt, der Bilder mit verschiedenen Seitenverhältnissen enthält, begleitet von vielfältigen Anweisungen, um verschiedene Aufgaben abzudecken. Sowohl automatische Bewertungen als auch menschliche Bewertungen zeigen, dass \omniedit signifikant besser abschneiden kann als alle bestehenden Modelle. Unser Code, Datensatz und Modell werden unter https://tiger-ai-lab.github.io/OmniEdit/ verfügbar sein.

M-Longdoc: Ein Benchmark für das multimodale Verstehen von sehr langen Dokumenten und ein auf Rückgewinnung ausgerichtetes Abstimmungsframework
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework

Nov 9

ByYew Ken Chia, Liying Cheng, Hou Pong Chan, Chaoqun Liu, Maojia Song, Sharifah Mahani Aljunied, Soujanya Poria, Lidong Bing

Die Fähigkeit, Fragen über Dokumente zu verstehen und zu beantworten, kann in vielen geschäftlichen und praktischen Anwendungen nützlich sein. Dokumente enthalten jedoch oft umfangreiche und vielfältige multimodale Inhalte wie Texte, Abbildungen und Tabellen, die für Menschen sehr zeitaufwändig sind, um sie gründlich zu lesen. Daher besteht ein dringender Bedarf, effektive und automatisierte Methoden zu entwickeln, um Menschen bei dieser Aufgabe zu unterstützen. In dieser Arbeit stellen wir M-LongDoc vor, einen Benchmark von 851 Beispielen, und ein automatisiertes Framework zur Bewertung der Leistung großer multimodaler Modelle. Wir schlagen außerdem einen Retrieval-bewussten Abstimmungsansatz für effizientes und effektives multimodales Dokumentenlesen vor. Im Vergleich zu bestehenden Arbeiten besteht unser Benchmark aus neueren und umfangreicheren Dokumenten mit Hunderten von Seiten, die auch offene Lösungen erfordern und nicht nur extraktive Antworten. Unser Schulungsframework ist unseres Wissens nach das erste, das sich direkt auf die Abrufumgebung für multimodale lange Dokumente konzentriert. Um die Abstimmung von Open-Source-Modellen zu ermöglichen, erstellen wir auf vollautomatische Weise einen Trainingskorpus für die Frage-Antwort-Aufgabe über solche Dokumente. Experimente zeigen, dass unser Abstimmungsansatz eine relative Verbesserung von 4,6% für die Korrektheit der Modellantworten im Vergleich zu den Baseline-Open-Source-Modellen erreicht. Unsere Daten, der Code und die Modelle sind unter https://multimodal-documents.github.io verfügbar.

Chinesisches SimpleQA: Eine chinesische Faktizitätsbewertung für große Sprachmodelle
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

Nov 11

ByYancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng

Neue Bewertungsmaßstäbe für LLM sind wichtig, um mit der schnellen Entwicklung von Large Language Models (LLMs) in Einklang zu stehen. In dieser Arbeit präsentieren wir Chinese SimpleQA, den ersten umfassenden chinesischen Maßstab zur Bewertung der Faktizitätsfähigkeit von Sprachmodellen, um kurze Fragen zu beantworten. Chinese SimpleQA hat hauptsächlich fünf Eigenschaften (d. h. Chinesisch, Vielfältig, Hochwertig, Statisch, Leicht zu bewerten). Speziell konzentrieren wir uns zunächst auf die chinesische Sprache über 6 Hauptthemen mit 99 verschiedenen Unterkategorien. Zweitens führen wir einen umfassenden Qualitätskontrollprozess durch, um hochwertige Fragen und Antworten zu erhalten, wobei die Referenzantworten statisch sind und im Laufe der Zeit nicht geändert werden können. Drittens sind die Fragen und Antworten gemäß SimpleQA sehr kurz, und der Bewertungsprozess ist leicht zu bewerten, basierend auf der OpenAI API. Basierend auf Chinese SimpleQA führen wir eine umfassende Bewertung der Faktizitätsfähigkeiten bestehender LLMs durch. Schließlich hoffen wir, dass Chinese SimpleQA den Entwicklern helfen könnte, die chinesischen Faktizitätsfähigkeiten ihrer Modelle besser zu verstehen und das Wachstum von Grundlagenmodellen zu erleichtern.

Bildverbesserung: Hochwertige Bildgenerierung mit Pixelraum-Laplace-Diffusionsmodellen
Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models

Nov 11

ByNVIDIA, Yuval Atzmon, Maciej Bala, Yogesh Balaji, Tiffany Cai, Yin Cui, Jiaojiao Fan, Yunhao Ge, Siddharth Gururani, Jacob Huffman, Ronald Isaac, Pooya Jannaty, Tero Karras, Grace Lam, J. P. Lewis, Aaron Licata, Yen-Chen Lin, Ming-Yu Liu, Qianli Ma, Arun Mallya, Ashlee Martino-Tarr, Doug Mendez, Seungjun Nah, Chris Pruett, Fitsum Reda, Jiaming Song, Ting-Chun Wang, Fangyin Wei, Xiaohui Zeng, Yu Zeng, Qinsheng Zhang

Wir stellen Edify Image vor, eine Familie von Diffusionsmodellen, die in der Lage sind, fotorealistische Bildinhalte mit pixelgenauer Genauigkeit zu generieren. Edify Image nutzt kaskadierte Pixelraum-Diffusionsmodelle, die mithilfe eines neuartigen Laplace-Diffusionsprozesses trainiert werden, bei dem Bildsignale in verschiedenen Frequenzbändern mit unterschiedlichen Raten abgeschwächt werden. Edify Image unterstützt eine Vielzahl von Anwendungen, darunter Text-zu-Bild-Synthese, 4K-Auflösung, ControlNets, 360 HDR-Panoramaerstellung und Feinabstimmung für die Bildanpassung.

IOPO: Stärkung von LLMs durch komplexe Anweisungsbefolgung mittels Optimierung von Eingabe-Ausgabe-Präferenzen.
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

Nov 9

ByXinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

Im Bereich großer Sprachmodelle (LLMs) ist die Fähigkeit von Modellen, Anweisungen präzise zu befolgen, von entscheidender Bedeutung, da immer mehr Agenten und Anwendungen LLMs für die Konstruktion nutzen, wobei die Komplexität der Anweisungen rapide zunimmt. Auf der einen Seite gibt es jedoch nur eine begrenzte Menge an Daten zur Bewertung komplexer Anweisungen; auf der anderen Seite gibt es keine dedizierten Algorithmen, um die Fähigkeit zur Befolgung komplexer Anweisungen zu verbessern. Zu diesem Zweck führt diese Arbeit TRACE ein, einen Benchmark zur Verbesserung und Bewertung der Fähigkeit zur Befolgung komplexer Anweisungen, der aus 120.000 Trainingsdaten und 1.000 Bewertungsdaten besteht. Darüber hinaus schlagen wir die IOPO (Input-Output Preference Optimization)-Ausrichtungsmethode vor, die sowohl Eingabe- als auch Ausgabepräferenzpaare berücksichtigt, wobei LLMs nicht nur schnell mit Antwortpräferenzen übereinstimmen, sondern auch sorgfältig die Anweisungspräferenzen erkunden. Umfangreiche Experimente mit sowohl in-domain als auch out-of-domain Datensätzen bestätigen die Wirksamkeit von IOPO und zeigen Verbesserungen von 8,15 % bzw. 2,18 % bei in-domain Daten und 6,29 % bzw. 3,13 % bei out-of-domain Daten im Vergleich zu SFT und DPO.

GitChameleon: Entlarven der Versionswechsel-Fähigkeiten von Code-Generierungsmodellen
GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models

Nov 5

ByNizar Islah, Justine Gehring, Diganta Misra, Eilif Muller, Irina Rish, Terry Yue Zhuo, Massimo Caccia

Die rasante Entwicklung von Software-Bibliotheken stellt eine bedeutende Herausforderung für Code-Generierungsmodelle dar, die sich an häufige Versionsupdates anpassen müssen, während sie die Kompatibilität mit früheren Versionen aufrechterhalten. Bestehende Code-Vervollständigungs-Benchmarks übersehen oft diesen dynamischen Aspekt, und derjenige, der dies berücksichtigt, stützt sich auf statische Code-Vorhersageaufgaben ohne ausführungsbasierte Bewertung, was eine begrenzte Perspektive auf die praktische Verwendbarkeit eines Modells bietet. Um diese Lücke zu schließen, stellen wir \GitChameleon{} vor, einen neuartigen, manuell erstellten Datensatz, der 116 Python-Code-Vervollständigungsprobleme umfasst, die jeweils von spezifischen Bibliotheksversionen abhängig sind und von ausführbaren Unit-Tests begleitet werden. \GitChameleon{} ist darauf ausgelegt, die Fähigkeit moderner großer Sprachmodelle (LLMs) zu bewerten, versionsabhängigen Code zu generieren, der nicht nur syntaktisch korrekt, sondern auch funktional korrekt bei der Ausführung ist. Unsere umfassenden Bewertungen zeigen, dass führende LLMs Schwierigkeiten mit dieser Aufgabe haben; beispielsweise erreicht GPT-4o nur eine Passrate von 39,9\% (43,7\%, wenn Fehlerfeedback bereitgestellt wird), was die Komplexität des Problems und die Grenzen der aktuellen Modelle hervorhebt. Indem wir einen ausführungsbasierten Benchmark bereitstellen, der die dynamische Natur von Code-Bibliotheken betont, dient \GitChameleon{} als wichtiges Werkzeug zur Förderung der Entwicklung von anpassungsfähigeren und zuverlässigeren Code-Generierungsmodellen. Zur Erleichterung weiterer Erkundungen der versionsbedingten Code-Generierung stellen wir unser Code-Repository öffentlich zugänglich unter https://github.com/NizarIslah/GitChameleon zur Verfügung.

Wasserzeichen mit lokalisierten Nachrichten versehen.
Watermark Anything with Localized Messages

Nov 11

ByTom Sander, Pierre Fernandez, Alain Durmus, Teddy Furon, Matthijs Douze

Bild-Wasserzeichenmethoden sind nicht darauf ausgelegt, kleine wassermarkierte Bereiche zu handhaben. Dies schränkt die Anwendungen in realen Szenarien ein, in denen Teile des Bildes aus verschiedenen Quellen stammen oder bearbeitet wurden. Wir stellen ein Deep-Learning-Modell für lokalisiertes Bild-Wasserzeichen vor, das als Watermark Anything Model (WAM) bezeichnet wird. Der WAM-Einbettungsprozess modifiziert das Eingabebild unmerklich, während der Extraktor das empfangene Bild in wassermarkierte und nicht wassermarkierte Bereiche unterteilt und eine oder mehrere versteckte Nachrichten aus den als wassermarkiert identifizierten Bereichen wiederherstellt. Die Modelle werden gemeinsam bei niedriger Auflösung und ohne wahrnehmungsbasierte Einschränkungen trainiert, dann für Unmerklichkeit und mehrere Wasserzeichen nachtrainiert. Experimente zeigen, dass WAM in Bezug auf Unmerklichkeit und Robustheit wettbewerbsfähig mit State-of-the-Art-Methoden ist, insbesondere gegenüber Retuschierungen und Montagen, selbst bei hochauflösenden Bildern. Darüber hinaus bietet es neue Möglichkeiten: WAM kann wassermarkierte Bereiche in montierten Bildern lokalisieren und unterschiedliche 32-Bit-Nachrichten mit weniger als 1 Bit Fehler aus mehreren kleinen Regionen extrahieren - die nicht größer als 10% der Bildfläche sind - selbst für kleine 256x256-Bilder.

Autoregressive Modelle in der Bildverarbeitung: Eine Übersicht
Autoregressive Models in Vision: A Survey

Nov 8

ByJing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong

Die autoregressive Modellierung war ein großer Erfolg im Bereich der natürlichen Sprachverarbeitung (NLP). In letzter Zeit sind autoregressive Modelle als ein bedeutender Schwerpunkt im Bereich der Computer Vision aufgetaucht, wo sie sich durch die Erzeugung hochwertiger visueller Inhalte auszeichnen. Autoregressive Modelle in NLP arbeiten typischerweise mit Teilwort-Token. Die Repräsentationsstrategie in der Computer Vision kann jedoch auf verschiedenen Ebenen variieren, d.h. auf Pixel-Ebene, Token-Ebene oder Skalen-Ebene, was die vielfältige und hierarchische Natur visueller Daten im Vergleich zur sequenziellen Struktur von Sprache widerspiegelt. Diese Übersicht untersucht umfassend die Literatur über autoregressive Modelle, die auf die Vision angewendet werden. Um die Lesbarkeit für Forscher aus verschiedenen Forschungsbereichen zu verbessern, beginnen wir mit der vorläufigen Sequenzrepräsentation und Modellierung in der Vision. Anschließend unterteilen wir die grundlegenden Rahmenbedingungen visueller autoregressiver Modelle in drei allgemeine Unterkategorien, einschließlich pixelbasierter, tokenbasierter und skalenbasierter Modelle, basierend auf der Repräsentationsstrategie. Wir untersuchen dann die Verbindungen zwischen autoregressiven Modellen und anderen generativen Modellen. Darüber hinaus präsentieren wir eine vielschichtige Kategorisierung autoregressiver Modelle in der Computer Vision, einschließlich Bildgenerierung, Videogenerierung, 3D-Generierung und multimodaler Generierung. Wir erläutern auch ihre Anwendungen in verschiedenen Bereichen, einschließlich aufstrebender Bereiche wie Embodied AI und 3D-Medizin-AI, mit etwa 250 relevanten Referenzen. Abschließend heben wir die aktuellen Herausforderungen für autoregressive Modelle in der Vision hervor und geben Empfehlungen für potenzielle Forschungsrichtungen. Wir haben auch ein Github-Repository eingerichtet, um die in dieser Übersicht enthaltenen Arbeiten zu organisieren unter: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

Spieltheoretisches LLM: Agentenworkflow für Verhandlungsspiele
Game-theoretic LLM: Agent Workflow for Negotiation Games

Nov 8

ByWenyue Hua, Ollie Liu, Lingyao Li, Alfonso Amayuelas, Julie Chen, Lucas Jiang, Mingyu Jin, Lizhou Fan, Fei Sun, William Wang, Xintong Wang, Yongfeng Zhang

Dieses Papier untersucht die Rationalität großer Sprachmodelle (LLMs) in strategischen Entscheidungskontexten, insbesondere im Rahmen der Spieltheorie. Wir bewerten mehrere hochmoderne LLMs in einem Spektrum von Spielen mit vollständiger und unvollständiger Information. Unsere Ergebnisse zeigen, dass LLMs häufig von rationalen Strategien abweichen, insbesondere wenn die Komplexität des Spiels mit größeren Auszahlungsmatrizen oder tieferen sequenziellen Bäumen zunimmt. Um diese Einschränkungen zu adressieren, entwerfen wir mehrere spieltheoretische Workflows, die die Denk- und Entscheidungsprozesse von LLMs lenken. Diese Workflows zielen darauf ab, die Fähigkeit der Modelle zur Berechnung von Nash-Gleichgewichten zu verbessern und rationale Entscheidungen zu treffen, selbst unter Bedingungen von Unsicherheit und unvollständiger Information. Experimentelle Ergebnisse zeigen, dass die Anwendung dieser Workflows die Rationalität und Robustheit von LLMs in spieltheoretischen Aufgaben signifikant verbessert. Insbesondere zeigen LLMs mit dem Workflow deutliche Verbesserungen bei der Identifizierung optimaler Strategien, der Erreichung nahezu optimaler Allokationen in Verhandlungsszenarien und der Reduzierung der Anfälligkeit für Ausbeutung während Verhandlungen. Des Weiteren untersuchen wir die metastrategischen Überlegungen, ob es rational für Agenten ist, solche Workflows zu übernehmen, wobei wir erkennen, dass die Entscheidung, den Workflow zu verwenden oder darauf zu verzichten, an sich ein spieltheoretisches Problem darstellt. Unsere Forschung trägt zu einem tieferen Verständnis der Entscheidungsfähigkeiten von LLMs in strategischen Kontexten bei und liefert Einblicke in die Verbesserung ihrer Rationalität durch strukturierte Workflows. Die Ergebnisse haben Auswirkungen auf die Entwicklung robusterer und strategisch fundierter KI-Agenten, die in der Lage sind, komplexe interaktive Umgebungen zu navigieren. Der Code und die Daten, die diese Studie unterstützen, sind unter https://github.com/Wenyueh/game_theory verfügbar.

Kontrafaktische Generierung aus Sprachmodellen
Counterfactual Generation from Language Models

Nov 11

ByShauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell

Das Verständnis und die Manipulation der kausalen Generierungsmechanismen in Sprachmodellen sind entscheidend für die Kontrolle ihres Verhaltens. Bisherige Arbeiten haben hauptsächlich auf Techniken wie Repräsentationschirurgie - z. B. Modell-Ablationen oder Manipulation von linearen Teilräumen, die mit spezifischen Konzepten verbunden sind - zurückgegriffen, um in diese Modelle einzugreifen. Um den genauen Einfluss von Interventionen zu verstehen, ist es nützlich, Gegentatsachen zu untersuchen - z. B. wie ein bestimmter Satz ausgesehen hätte, wenn er vom Modell nach einer bestimmten Intervention generiert worden wäre. Wir betonen, dass das Gegentatsachen-Argumentationsverfahren konzeptionell von Interventionen unterschieden ist, wie es in Pearls kausaler Hierarchie dargelegt ist. Basierend auf dieser Beobachtung schlagen wir ein Rahmenwerk zur Generierung echter Zeichen-Gegentatsachen vor, indem wir Sprachmodelle als Generalisierte Strukturgleichungsmodelle unter Verwendung des Gumbel-Max-Tricks neu formulieren. Dies ermöglicht es uns, die gemeinsame Verteilung über originale Zeichen und ihre Gegentatsachen zu modellieren, die aus derselben Instantiierung des Stichprobenrauschens resultieren. Wir entwickeln einen Algorithmus basierend auf dem Hindsight-Gumbel-Stichprobenverfahren, der es uns ermöglicht, die latenten Rauschvariablen zu erschließen und Gegentatsachen von beobachteten Zeichen zu generieren. Unsere Experimente zeigen, dass der Ansatz sinnvolle Gegentatsachen produziert und gleichzeitig aufzeigt, dass häufig verwendete Interventionsmethoden erhebliche unerwünschte Nebenwirkungen haben.

Ablation allein reicht nicht aus, um DPO zu emulieren: Wie Neuronendynamik die Reduzierung von Toxizität vorantreibt.
Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction

Nov 10

ByYushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi

Sicherheitsfeinabstimmungsalgorithmen werden häufig verwendet, um Sprachmodelle feinzustimmen und schädliche Ausgaben zu reduzieren, aber die genauen internen Mechanismen, wie diese Modelle dies erreichen, bleiben unklar. Bei der Untersuchung der direkten Präferenzoptimierung (DPO) zur Reduzierung von Toxizität behaupten aktuelle Erklärungen, dass DPO funktioniert, indem die giftigsten MLP-Neuronen gedämpft werden, um einen Versatz zu erlernen, der giftige Bereiche im Reststrom vermeidet. Jedoch finden wir durch die Entfernung der giftigsten Neuronen und die Anwendung von Aktivierungspatching, dass diese Erklärung unvollständig ist. Durch die Projektion von Neuronenaktivitätsänderungen auf eine Toxizitätsprobe stellen wir fest, dass nur 31,8\% der Toxizitätsreduktion von gedämpften giftigen Neuronen stammen. Stattdessen reduziert DPO die Toxizität, indem es Effekte über mehrere Neuronengruppen hinweg akkumuliert, sowohl das Schreiben in die giftige Richtung reduziert als auch die Antitoxizität im Reststrom fördert. Darüber hinaus führt DPO zu ungenauen Anpassungen der Neuronenaktivierungen, wobei viele Neuronen tatsächlich die Toxizität erhöhen. Dies deutet darauf hin, dass DPO ein Ausgleichsprozess zwischen entgegengesetzten Neuroneneffekten ist, um eine Toxizitätsreduktion zu erreichen.

KMM: Schlüsselbildmaske Mamba für erweiterte Bewegungserzeugung
KMM: Key Frame Mask Mamba for Extended Motion Generation

Nov 10

ByZeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang

Die Erzeugung menschlicher Bewegungen ist ein hochmodernes Forschungsgebiet in der generativen Computer Vision mit vielversprechenden Anwendungen in der Videoproduktion, der Spieleentwicklung und der robotergestützten Manipulation. Die jüngste Mamba-Architektur zeigt vielversprechende Ergebnisse bei der effizienten Modellierung langer und komplexer Sequenzen, dennoch bleiben zwei bedeutende Herausforderungen bestehen: Erstens ist die direkte Anwendung von Mamba auf die Erzeugung erweiterter Bewegungen ineffektiv, da die begrenzte Kapazität des impliziten Gedächtnisses zu einem Gedächtnisverlust führt. Zweitens hat Mamba im Vergleich zu Transformers Schwierigkeiten mit multimodaler Fusion und fehlender Ausrichtung auf textuelle Abfragen, was oft zu Verwirrung bei Richtungen (links oder rechts) oder dem Auslassen von Teilen längerer Textabfragen führt. Um diesen Herausforderungen zu begegnen, präsentiert unser Paper drei wesentliche Beiträge: Erstens führen wir KMM ein, eine neuartige Architektur mit Key Frame Masking Modeling, die darauf abzielt, Mambas Fokus auf Schlüsselaktionen in Bewegungssegmenten zu verstärken. Dieser Ansatz löst das Problem des Gedächtnisverlusts und stellt eine wegweisende Methode zur Anpassung strategischer Rahmenmaskierung in SSMs dar. Darüber hinaus haben wir ein kontrastives Lernparadigma entwickelt, um das Problem der multimodalen Fusion in Mamba anzugehen und die Bewegungs-Text-Ausrichtung zu verbessern. Schließlich führten wir umfangreiche Experimente an dem Standarddatensatz BABEL durch, wobei wir eine Spitzenleistung erzielten und im Vergleich zu früheren Spitzenmethoden eine Reduzierung von mehr als 57% bei FID und 70% der Parameter erreichten. Siehe Projektwebsite: https://steve-zeyu-zhang.github.io/KMM

NeKo: Auf dem Weg zu post Recognition Generative Correction Large Language Models mit aufgabenorientierten Experten
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

Nov 8

ByYen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang

Die Konstruktion eines allgemeinen Fehlerkorrektors nach der Erkennung wirft eine entscheidende Frage auf: Wie können wir ein Modell am effektivsten auf eine große Mischung von Domänendatensätzen trainieren? Die Antwort liegt darin, datensatzspezifische Merkmale zu erlernen und ihr Wissen in einem einzigen Modell zu verarbeiten. Frühere Methoden erreichen dies, indem sie separate Korrektur-Sprachmodelle haben, was zu einer signifikanten Zunahme der Parameter führt. In dieser Arbeit präsentieren wir Mixture-of-Experts als Lösung und betonen, dass MoEs weit mehr als nur ein Skalierungswerkzeug sind. Wir schlagen ein Multi-Task Correction MoE vor, bei dem wir die Experten trainieren, zu einem "Experten" für Sprache-zu-Text-, Sprache-zu-Text- und Bild-zu-Text-Datensätze zu werden, indem wir lernen, die Token jedes Datensatzes an seinen zugeordneten Experten zu leiten. Experimente auf dem Open ASR Leaderboard zeigen, dass wir einen neuen State-of-the-Art-Leistungsstand erreichen, indem wir eine durchschnittliche relative WER-Reduktion von 5,0 % erzielen und signifikante Verbesserungen bei BLEU-Werten für Sprach- und Übersetzungsaufgaben erzielen. Bei der Zero-Shot-Evaluation übertrifft NeKo GPT-3.5 und Claude-Opus mit einer relativen WER-Reduktion von 15,5 % bis 27,6 % im Hyporadise-Benchmark. NeKo schneidet als Multi-Task-Modell im Bereich Grammatik- und Post-OCR-Korrektur wettbewerbsfähig ab.

Energieeffiziente Protein-Sprachmodelle: Nutzung kleiner Sprachmodelle mit LoRA für kontrollierbare Protein-Generierung
Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation

Nov 8

ByAayush Shah, Shankar Jayaratnam

Große Sprachmodelle (LLMs) haben signifikanten Erfolg bei natürlicher Sprachverarbeitung (NLP) gezeigt und vielversprechende Ergebnisse in anderen Bereichen wie der Generierung von Proteinsequenzen erzielt. Dennoch bestehen wesentliche Unterschiede zwischen LLMs, die für NLP verwendet werden, mehrere Aufgaben effektiv bewältigen und in kleinen Größen verfügbar sind, und Protein-Sprachmodellen, die oft für spezifische Aufgaben spezialisiert sind und nur in größeren Größen existieren. In dieser Arbeit stellen wir zwei kleine Protein-Sprachmodelle vor, basierend auf Llama-3-8B und Phi-3-mini, die sowohl unkontrollierte als auch kontrollierte Protein-Generierungsfähigkeiten besitzen. Für die unkontrollierte Generierungsaufgabe erreicht unser bestes Modell einen durchschnittlichen pLDDT-Wert von 69,75 und zeigt eine robuste Leistung bei der Generierung lebensfähiger Proteinstrukturen. Für die kontrollierte Generierungsaufgabe, bei der das Modell Proteine gemäß den in der Eingabe angegebenen Eigenschaften generiert, erreichen wir einen bemerkenswerten durchschnittlichen TM-Score von 0,84, was eine hohe strukturelle Ähnlichkeit zu Zielproteinen anzeigt. Wir wählten 10 Eigenschaften, darunter sechs Klassen von Enzymen, um die Fähigkeiten früherer Protein-Sprachmodelle zu erweitern. Unser Ansatz nutzt die Low-Rank Adaptor (LoRA) Technik, um die trainierbaren Parameter auf nur 4% der Originalmodellgröße zu reduzieren und den Rechenaufwand zu verringern. Durch die Verwendung eines Teils des UniRef50-Datensatzes und kleiner Modelle konnten wir die Gesamttrainingszeit um 70% verkürzen, ohne die Leistung zu beeinträchtigen. Insbesondere reduzierte Phi-3-mini die trainierbaren Parameter um 60%, was die Trainingskosten im Vergleich zu Llama 3 um 30% senkte. Folglich erreichte Phi-3 einen vergleichbaren TM-Score von 0,81 und zeigt, dass kleinere Modelle die Leistung größerer Modelle wie Llama 3 erreichen können. Wir zeigen auch die Implementierung unserer Modelle auf dem energieeffizienten ET-SoC-1 Chip, wodurch die TPS/W um den Faktor 3 verbessert wird.

Goldene Touchstone: Ein umfassender zweisprachiger Maßstab zur Bewertung von Finanz-Large-Language-Modellen
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models

Nov 9

ByXiaojun Wu, Junxi Liu, Huanyi Su, Zhouchi Lin, Yiyan Qi, Chengjin Xu, Jiajun Su, Jiajie Zhong, Fuwei Wang, Saizhuo Wang, Fengrui Hua, Jia Li, Jian Guo

Mit dem zunehmenden Einsatz großer Sprachmodelle im Finanzsektor besteht ein dringender Bedarf an einer standardisierten Methode zur umfassenden Bewertung ihrer Leistung. Bestehende Finanz-Benchmarks leiden jedoch oft unter begrenzter Sprach- und Aufgabenabdeckung sowie Herausforderungen wie Datensätzen von geringer Qualität und unzureichender Anpassungsfähigkeit für die Bewertung von LLMs. Um diese Einschränkungen zu adressieren, schlagen wir "Golden Touchstone" vor, den ersten umfassenden zweisprachigen Benchmark für Finanz-LLMs, der repräsentative Datensätze aus dem Chinesischen und Englischen für acht Kernfinanz-NLP-Aufgaben umfasst. Entwickelt aus umfangreicher Open-Source-Datensammlung und branchenspezifischen Anforderungen, beinhaltet dieser Benchmark eine Vielzahl von Finanzaufgaben, die darauf abzielen, die Sprachverständnis- und Generierungsfähigkeiten von Modellen gründlich zu bewerten. Durch den Vergleich von führenden Modellen auf dem Benchmark, wie GPT-4o Llama3, FinGPT und FinMA, zeigen wir deren Stärken und Schwächen bei der Verarbeitung komplexer Finanzinformationen auf. Zusätzlich haben wir Touchstone-GPT als Finanz-LLM mit kontinuierlichem Vortraining und Feinabstimmung auf finanzielle Anweisungen als Open-Source bereitgestellt, der eine starke Leistung auf dem zweisprachigen Benchmark zeigt, aber dennoch Einschränkungen in spezifischen Aufgaben aufweist. Diese Forschung bietet nicht nur den großen Finanz-Sprachmodellen ein praktisches Bewertungsinstrument, sondern leitet auch die Entwicklung und Optimierung zukünftiger Forschung an. Der Quellcode für Golden Touchstone und die Modellgewichte von Touchstone-GPT sind öffentlich unter https://github.com/IDEA-FinAI/Golden-Touchstone verfügbar und tragen zur kontinuierlichen Evolution von FinLLMs bei und fördern weitere Forschung in diesem wichtigen Bereich.

OmniEdit: Aufbau von Bildbearbeitungs-Allrounder-Modellen durch spezialisierte Überwachung
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

Nov 11

ByCong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen