HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

9 papers found

RotePyjama: Ein offenes Datenset zur Schulung großer Sprachmodelle
RedPajama: an Open Dataset for Training Large Language Models

Nov 19

ByMaurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang

Große Sprachmodelle werden zunehmend zu einer Schlüsseltechnologie in der künstlichen Intelligenz, den Wissenschaften und der Gesellschaft insgesamt, dennoch bleiben die optimalen Strategien für die Zusammensetzung und Filterung von Datensätzen weitgehend unklar. Viele der leistungsstärksten Modelle weisen undurchsichtige Vorgehensweisen bei der Datensatzkuratierung und Modellentwicklung auf, was ein Hindernis für die Entwicklung vollständig offener Sprachmodelle darstellt. In diesem Paper identifizieren wir drei zentrale datenbezogene Herausforderungen, die angegangen werden müssen, um Open-Source-Sprachmodelle voranzubringen. Diese umfassen (1) Transparenz bei der Modellentwicklung, einschließlich des Datensatzkuratierungsprozesses, (2) Zugang zu großen Mengen hochwertiger Daten und (3) Verfügbarkeit von Artefakten und Metadaten für die Datensatzkuratierung und -analyse. Um diesen Herausforderungen zu begegnen, veröffentlichen wir RedPajama-V1, eine offene Reproduktion des LLaMA-Trainingsdatensatzes. Darüber hinaus veröffentlichen wir RedPajama-V2, einen umfangreichen ausschließlich webbasierten Datensatz, bestehend aus rohen, ungefilterten Textdaten zusammen mit Qualitätsindikatoren und Metadaten. Zusammen umfassen die RedPajama-Datensätze über 100 Billionen Tokens, die verschiedene Bereiche abdecken, und mit ihren Qualitätsindikatoren erleichtern sie die Datenfilterung mit dem Ziel, die Entwicklung zahlreicher neuer Datensätze zu inspirieren. Diese Datensätze wurden bereits zur Schulung leistungsstarker Sprachmodelle verwendet, die in der Produktion eingesetzt werden, wie beispielsweise Snowflake Arctic, Salesforce's XGen und AI2's OLMo. Um Einblicke in die Qualität von RedPajama zu geben, präsentieren wir eine Reihe von Analysen und Ablationsstudien mit ausschließlich Decoder-Sprachmodellen mit bis zu 1,6 Milliarden Parametern. Unsere Ergebnisse zeigen, wie Qualitätsindikatoren für Webdaten effektiv genutzt werden können, um hochwertige Teilmengen des Datensatzes zu kuratieren, was das Potenzial von RedPajama unterstreicht, die Entwicklung transparenter und leistungsstarker Sprachmodelle im großen Maßstab voranzutreiben.

FlipSketch: Umwandlung statischer Zeichnungen in textgesteuerte Skizzieranimationsvideos
FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations

Nov 16

ByHmrishav Bandyopadhyay, Yi-Zhe Song

Skizzenanimationen bieten ein leistungsstarkes Medium für visuelles Storytelling, von einfachen Flip-Book-Skizzen bis hin zu professionellen Studio-Produktionen. Während traditionelle Animationstechniken Teams aus erfahrenen Künstlern erfordern, um Schlüsselbilder und Zwischenbilder zu zeichnen, erfordern bestehende Automatisierungsansätze immer noch erheblichen künstlerischen Aufwand durch präzise Bewegungspfade oder Schlüsselbildspezifikationen. Wir stellen FlipSketch vor, ein System, das die Magie der Flip-Book-Animation zurückbringt - einfach deine Idee zeichnen und beschreiben, wie du möchtest, dass sie sich bewegt! Unser Ansatz nutzt Bewegungsprioritäten aus Text-zu-Video-Diffusionsmodellen, passt sie an, um Skizzenanimationen durch drei Schlüsselinnovationen zu generieren: (i) Feinabstimmung für die Generierung von Skizzenstil-Bildern, (ii) ein Referenzbildmechanismus, der die visuelle Integrität der Eingabeskizze durch Rauschverfeinerung bewahrt, und (iii) eine duale Aufmerksamkeitskomposition, die flüssige Bewegungen ermöglicht, ohne die visuelle Konsistenz zu verlieren. Im Gegensatz zu eingeschränkten Vektoranimationen unterstützen unsere Rasterbilder dynamische Skizzentransformationen und erfassen die expressive Freiheit traditioneller Animation. Das Ergebnis ist ein intuitives System, das Skizzenanimation so einfach wie das Kritzeln und Beschreiben macht, während die künstlerische Essenz der handgezeichneten Animation erhalten bleibt.

SymDPO: Steigerung des kontextbezogenen Lernens großer multimodaler Modelle mit Symbol-Demonstrations-Direktpräferenzoptimierung
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Nov 17

ByHongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

Mit der fortschreitenden Skalierung von Sprachmodellen haben Große Sprachmodelle (LLMs) aufkommende Fähigkeiten im Bereich des In-Context Learning (ICL) gezeigt, die es ihnen ermöglichen, Sprachaufgaben zu lösen, indem sie einige In-Context-Demonstrationen (ICDs) als Kontext voranstellen. Inspiriert von diesen Fortschritten haben Forscher diese Techniken erweitert, um Große Multimodale Modelle (LMMs) mit ICL-Fähigkeiten zu entwickeln. Allerdings haben bestehende LMMs ein kritisches Problem: Sie nutzen oft nicht effektiv den visuellen Kontext in multimodalen Demonstrationen und folgen stattdessen einfach nur textuellen Mustern. Dies deutet darauf hin, dass LMMs keine effektive Ausrichtung zwischen multimodalen Demonstrationen und Modellausgaben erreichen. Um dieses Problem anzugehen, schlagen wir Symbol Demonstration Direct Preference Optimization (SymDPO) vor. Speziell zielt SymDPO darauf ab, das traditionelle Paradigma der Konstruktion von multimodalen Demonstrationen zu durchbrechen, indem zufällige Symbole verwendet werden, um Textantworten innerhalb von Instanzen zu ersetzen. Dies zwingt das Modell dazu, die Demonstrationsbilder sorgfältig zu verstehen und eine Beziehung zwischen den Bildern und den Symbolen herzustellen, um Fragen korrekt zu beantworten. Wir validieren die Wirksamkeit dieser Methode anhand mehrerer Benchmarks und zeigen, dass LMMs mit SymDPO das multimodale Umfeld innerhalb von Beispielen effektiver verstehen können und dieses Wissen nutzen, um Fragen besser zu beantworten.

Kontinuierliche spekulative Dekodierung für autoregressive Bildgenerierung
Continuous Speculative Decoding for Autoregressive Image Generation

Nov 18

ByZili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang

Kontinuierliche autoregressive (AR) Bildgenerierungsmodelle haben eine bemerkenswerte Überlegenheit gegenüber ihren diskreten Token-Gegenstücken gezeigt, indem sie eine beträchtliche Rekonstruktionsqualität und eine höhere Generierungstreue präsentierten. Die Rechenanforderungen des autoregressiven Rahmens führen jedoch zu erheblichem Inferenzaufwand. Während spekulatives Decodieren sich als effektiv zur Beschleunigung großer Sprachmodelle (LLMs) erwiesen hat, bleibt ihre Anpassung an kontinuierlich bewertete visuelle autoregressive Modelle unerforscht. Diese Arbeit verallgemeinert den spekulativen Decodierungsalgorithmus von diskreten Tokens auf den kontinuierlichen Raum. Durch die Analyse der intrinsischen Eigenschaften der Ausgabeverteilung etablieren wir ein maßgeschneidertes Akzeptanzkriterium für die in solchen Modellen vorherrschenden Diffusionsverteilungen. Um die Inkonsistenz zu überwinden, die bei Ausgabeverteilungen des spekulativen Decodierens auftrat, führen wir Methoden zur Rauschunterdrückung, Trajektorienausrichtung und Token-Vorabfüllung ein. Darüber hinaus identifizieren wir die schwer zu sampelnde Verteilung in der Ablehnungsphase. Um dieses Problem zu mildern, schlagen wir eine sorgfältige Akzeptanz-Ablehnungs-Sampling-Methode mit einer angemessenen Obergrenze vor, um komplexe Integrationen zu umgehen. Experimentelle Ergebnisse zeigen, dass unser kontinuierliches spekulatives Decodieren eine bemerkenswerte 2,33-fache Beschleunigung bei Modellen von der Stange erreicht, während die Ausgabeverteilung beibehalten wird. Der Code wird verfügbar sein unter https://github.com/MarkXCloud/CSpD.

ITACLIP: Steigerung der trainingsfreien semantischen Segmentierung durch Bild-, Text- und architektonische Verbesserungen
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

Nov 18

ByM. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin

Neueste Fortschritte bei grundlegenden Vision Language Models (VLMs) haben das Bewertungsparadigma bei Computer Vision Aufgaben verändert. Diese grundlegenden Modelle, insbesondere CLIP, haben die Forschung in Open-Vocabulary Computer Vision Aufgaben, einschließlich Open-Vocabulary Semantic Segmentation (OVSS), beschleunigt. Obwohl die anfänglichen Ergebnisse vielversprechend sind, erfordern die dichten Vorhersagefähigkeiten von VLMs noch weitere Verbesserungen. In dieser Studie verbessern wir die semantische Segmentierungsleistung von CLIP, indem wir neue Module und Modifikationen einführen: 1) architektonische Änderungen in der letzten Schicht von ViT und die Integration von Aufmerksamkeitskarten aus den mittleren Schichten mit der letzten Schicht, 2) Bildtechnik: Anwendung von Datenveränderungen zur Anreicherung von Eingabebildrepräsentationen, und 3) Verwendung von Large Language Models (LLMs) zur Generierung von Definitionen und Synonymen für jeden Klassennamen, um die Open-Vocabulary Fähigkeiten von CLIP zu nutzen. Unsere trainingsfreie Methode, ITACLIP, übertrifft aktuelle State-of-the-Art Ansätze bei Segmentierungsbenchmarks wie COCO-Stuff, COCO-Object, Pascal Context und Pascal VOC. Unser Code ist verfügbar unter https://github.com/m-arda-aydn/ITACLIP.

Vertrauen aufbauen: Grundlagen von Sicherheit, Schutz und Transparenz in KI
Building Trust: Foundations of Security, Safety and Transparency in AI

Nov 19

ByHuzaifa Sidhpurwala, Garth Mollett, Emily Fox, Mark Bestavros, Huamin Chen

Dieses Papier untersucht das sich rasch entwickelnde Ökosystem öffentlich verfügbarer KI-Modelle und deren potenzielle Auswirkungen auf die Sicherheits- und Sicherheitslandschaft. Mit der zunehmenden Verbreitung von KI-Modellen ist es entscheidend, ihre potenziellen Risiken und Schwachstellen zu verstehen. Wir überprüfen die aktuellen Sicherheits- und Sicherheitsszenarien und heben Herausforderungen wie Tracking-Probleme, Fehlerbehebung und das offensichtliche Fehlen von KI-Modell-Lebenszyklus- und Eigentumsprozessen hervor. Es werden umfassende Strategien zur Verbesserung der Sicherheit und Sicherheit für sowohl Modellentwickler als auch Endbenutzer vorgeschlagen. Dieses Papier zielt darauf ab, einige der grundlegenden Elemente für eine standardisierte Sicherheit, Sicherheit und Transparenz bei der Entwicklung und dem Betrieb von KI-Modellen sowie den größeren offenen Ökosystemen und Gemeinschaften, die sich um sie bilden, bereitzustellen.

Weiche robotische dynamische Stift-Drehbewegung in der Hand
Soft Robotic Dynamic In-Hand Pen Spinning

Nov 19

ByYunchao Yao, Uksang Yoo, Jean Oh, Christopher G. Atkeson, Jeffrey Ichnowski

Die dynamische Manipulation in der Hand bleibt eine anspruchsvolle Aufgabe für weiche Robotersysteme, die Vorteile bei sicheren, nachgiebigen Interaktionen gezeigt haben, aber Schwierigkeiten bei hochdynamischen Aufgaben haben. In dieser Arbeit präsentieren wir SWIFT, ein System zum Erlernen dynamischer Aufgaben unter Verwendung einer weichen und nachgiebigen Roboterhand. Im Gegensatz zu früheren Arbeiten, die auf Simulation, quasi-statischen Aktionen und präzisen Objektmodellen basieren, lernt das vorgeschlagene System, einen Stift durch Ausprobieren zu drehen, wobei nur reale Daten verwendet werden, ohne explizites Vorwissen über die physikalischen Eigenschaften des Stifts zu benötigen. Mit selbstbeschrifteten Versuchen, die aus der realen Welt entnommen wurden, entdeckt das System die Gruppe von Parametern für das Greifen und Drehen des Stifts, die es einer weichen Hand ermöglichen, einen Stift robust und zuverlässig zu drehen. Nach 130 ausprobierten Aktionen pro Objekt erreicht SWIFT eine Erfolgsrate von 100 % bei drei Stiften mit unterschiedlichen Gewichten und Gewichtsverteilungen, was die Generalisierbarkeit des Systems und seine Robustheit gegenüber Änderungen der Objekteigenschaften zeigt. Die Ergebnisse verdeutlichen das Potenzial von weichen robotischen Endeffektoren, dynamische Aufgaben wie schnelle Manipulationen in der Hand auszuführen. Wir zeigen auch, dass SWIFT auf das Drehen von Gegenständen mit unterschiedlichen Formen und Gewichten wie einem Pinsel und einem Schraubendreher generalisiert, wobei Erfolgsraten von 10/10 bzw. 5/10 erzielt werden. Videos, Daten und Code sind unter https://soft-spin.github.io verfügbar.

SEAGULL: Bildqualitätsbewertung ohne Referenz für Interessensregionen über die Feinabstimmung von Seh-Sprach-Anweisungen
SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning

Nov 15

ByZewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu

Bestehende Methoden zur Bewertung der Bildqualität (IQA) erzielen bemerkenswerte Erfolge bei der Analyse der Gesamtbildqualität, aber nur wenige Arbeiten untersuchen die Qualitätsanalyse für Regionen von Interesse (ROIs). Die Qualitätsanalyse von ROIs kann detaillierte Anleitungen für die Verbesserung der Bildqualität liefern und ist entscheidend für Szenarien, die sich auf die Qualität auf Regionsebene konzentrieren. Dieser Artikel schlägt ein neuartiges Netzwerk, SEAGULL, vor, das ROIs-Qualität sehen und bewerten kann, mit Unterstützung eines großen Vision-Sprachmodells. SEAGULL integriert ein Vision-Sprachmodell (VLM), Masken, die von einem Modell zur Segmentierung beliebiger Objekte (SAM) generiert werden, um ROIs zu spezifizieren, und einen sorgfältig entworfenen maskenbasierten Merkmalsextraktor (MFE), um globale und lokale Token für spezifizierte ROIs zu extrahieren, was eine präzise detaillierte IQA für ROIs ermöglicht. Darüber hinaus konstruiert dieser Artikel zwei ROI-basierte IQA-Datensätze, SEAGULL-100w und SEAGULL-3k, für das Training und die Bewertung von ROI-basierter IQA. SEAGULL-100w umfasst etwa 100w synthetische Verzerrungsbilder mit 33 Millionen ROIs für das Vor-Training, um die Fähigkeit des Modells zur regionalen Qualitätswahrnehmung zu verbessern, und SEAGULL-3k enthält etwa 3k authentische Verzerrungs-ROIs, um die Fähigkeit des Modells zur Wahrnehmung von realen Verzerrungen zu stärken. Nach dem Vor-Training auf SEAGULL-100w und dem Feintuning auf SEAGULL-3k zeigt SEAGULL bemerkenswerte Leistungen bei der detaillierten Bewertung der ROI-Qualität. Code und Datensätze sind öffentlich verfügbar unter https://github.com/chencn2020/Seagull.

Die Bewertung der Tokenizer-Leistung großer Sprachmodelle in den offiziellen indischen Sprachen.
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

Nov 19

ByS. Tamang, D. J. Bora

Große Sprachmodelle (LLMs) auf Basis von Transformer-Architekturen haben eine Vielzahl von Bereichen revolutioniert, wobei die Tokenisierung eine entscheidende Rolle in ihren Vorverarbeitungs- und Feinabstimmungsphasen spielt. Bei mehrsprachigen Modellen, insbesondere solchen, die für Indische Sprachen maßgeschneidert sind, ist eine effektive Tokenisierung entscheidend für die Optimierung der Leistung. Dieser Artikel präsentiert eine umfassende Bewertung der Tokenizer, die von 12 LLMs in allen 22 offiziellen Sprachen Indiens verwendet werden, wobei der Schwerpunkt auf dem Vergleich der Effizienz ihrer Tokenisierungsprozesse liegt. Wir haben die Normalisierte Sequenzlänge (NSL) als wichtige Metrik in unserer Analyse verwendet. Unsere Ergebnisse zeigen, dass der SUTRA-Tokenizer alle anderen Modelle übertrifft, einschließlich mehrerer Indisch-spezifischer Modelle, und in 14 Sprachen herausragt. Bemerkenswerte Erkenntnisse umfassen die überlegene Handhabung von Indischen Sprachen durch den SUTRA-Tokenizer, den Fortschritt von GPT-4o gegenüber seinem Vorgänger GPT-4 bei der Verarbeitung Indischer Sprachen und die begrenzte Leistung von Project Indus in bestimmten Sprachen. Diese Studie unterstreicht die entscheidende Bedeutung der Entwicklung zielgerichteter Tokenisierungsstrategien für mehrsprachige und Indisch-zentrierte Modelle und legt den Grundstein für zukünftige Verbesserungen im Design von Tokenizern, um die sprachliche Abdeckung und die Modelleffizienz zu verbessern.

RotePyjama: Ein offenes Datenset zur Schulung großer Sprachmodelle
RedPajama: an Open Dataset for Training Large Language Models

Nov 19