Tägliche Papers

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Datum auswählen

Nougat: Neuronales Optisches Verständnis für akademische Dokumente
Nougat: Neural Optical Understanding for Academic Documents

Aug 25, 2023

Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic

392

Wissenschaftliches Wissen wird überwiegend in Büchern und wissenschaftlichen Zeitschriften gespeichert, oft in Form von PDFs. Das PDF-Format führt jedoch zu einem Verlust an semantischen Informationen, insbesondere bei mathematischen Ausdrücken. Wir stellen Nougat (Neural Optical Understanding for Academic Documents) vor, ein Visual-Transformer-Modell, das eine Optical Character Recognition (OCR)-Aufgabe zur Verarbeitung wissenschaftlicher Dokumente in eine Auszeichnungssprache durchführt, und demonstrieren die Effektivität unseres Modells anhand eines neuen Datensatzes wissenschaftlicher Dokumente. Der vorgeschlagene Ansatz bietet eine vielversprechende Lösung, um die Zugänglichkeit wissenschaftlichen Wissens im digitalen Zeitalter zu verbessern, indem er die Lücke zwischen menschenlesbaren Dokumenten und maschinenlesbarem Text überbrückt. Wir veröffentlichen die Modelle und den Code, um zukünftige Arbeiten zur Erkennung wissenschaftlicher Texte zu beschleunigen.

OmniQuant: Omnidirektional kalibrierte Quantisierung für große Sprachmodelle
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

Aug 25, 2023

Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo

180

Große Sprachmodelle (LLMs) haben die Aufgaben der natürlichen Sprachverarbeitung revolutioniert. Ihre praktische Anwendung wird jedoch durch ihren immensen Speicher- und Rechenbedarf erschwert. Obwohl aktuelle Methoden der Post-Training-Quantisierung (PTQ) effektiv den Speicherbedarf reduzieren und die Recheneffizienz von LLMs verbessern, verwenden sie handgefertigte Quantisierungsparameter, was zu geringer Leistung führt und bei extrem niedriger Bit-Quantisierung versagt. Um dieses Problem zu lösen, führen wir eine omnidirektional kalibrierte Quantisierungstechnik (OmniQuant) für LLMs ein, die in verschiedenen Quantisierungseinstellungen gute Leistung erzielt und gleichzeitig die Recheneffizienz von PTQ durch effiziente Optimierung verschiedener Quantisierungsparameter beibehält. OmniQuant besteht aus zwei innovativen Komponenten: Learnable Weight Clipping (LWC) und Learnable Equivalent Transformation (LET). LWC moduliert die Extremwerte der Gewichte durch Optimierung des Clipping-Schwellenwerts. LET hingegen behandelt Ausreißer in den Aktivierungen, indem es die Herausforderung der Quantisierung von Aktivierungen auf Gewichte durch eine lernfähige äquivalente Transformation verschiebt. Innerhalb eines differenzierbaren Frameworks, das blockweise Fehlerminimierung verwendet, kann OmniQuant den Quantisierungsprozess effizient für sowohl Gewichts- als auch Gewichts-Aktivierungs-Quantisierung optimieren. Beispielsweise kann die LLaMA-2-Modellfamilie mit einer Größe von 7-70B mit OmniQuant auf einer einzelnen A100-40G-GPU innerhalb von 1-16 Stunden unter Verwendung von 128 Stichproben verarbeitet werden. Umfangreiche Experimente bestätigen die überlegene Leistung von OmniQuant in verschiedenen Quantisierungskonfigurationen wie W4A4, W6A6, W4A16, W3A16 und W2A16. Zusätzlich zeigt OmniQuant Wirksamkeit bei instruktionsoptimierten Modellen und erzielt bemerkenswerte Verbesserungen in der Inferenzgeschwindigkeit und Speicherreduzierung auf realen Geräten. Codes und Modelle sind verfügbar unter https://github.com/OpenGVLab/OmniQuant.

SoTaNa: Der Open-Source-Softwareentwicklungsassistent
SoTaNa: The Open-Source Software Development Assistant

Aug 25, 2023

Ensheng Shi, Fengji Zhang, Yanlin Wang, Bei Chen, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun

120

Die Softwareentwicklung spielt eine entscheidende Rolle bei der Förderung von Innovation und Effizienz in modernen Gesellschaften. Um den Anforderungen dieses dynamischen Feldes gerecht zu werden, besteht ein zunehmender Bedarf an einem effektiven Softwareentwicklungsassistenten. Allerdings leiden bestehende große Sprachmodelle, wie beispielsweise ChatGPT, unter eingeschränkter Zugänglichkeit, einschließlich der Trainingsdaten und Modellgewichte. Obwohl andere große Open-Source-Modelle wie LLaMA vielversprechend sind, haben sie immer noch Schwierigkeiten, menschliche Absichten zu verstehen. In diesem Artikel stellen wir SoTaNa vor, einen Open-Source-Softwareentwicklungsassistenten. SoTaNa nutzt ChatGPT, um hochwertige, anweisungsbasierte Daten für den Bereich der Softwareentwicklung zu generieren, und setzt einen parameter-effizienten Feinabstimmungsansatz ein, um das Open-Source-Basismodell LLaMA zu verbessern. Wir bewerten die Effektivität von SoTaNa bei der Beantwortung von Stack-Overflow-Fragen und demonstrieren seine Fähigkeiten. Darüber hinaus diskutieren wir seine Fähigkeiten in der Code-Zusammenfassung und -Generierung sowie die Auswirkungen der Variation des Umfangs der generierten Daten auf die Modellleistung. Bemerkenswerterweise kann SoTaNa auf einer einzelnen GPU laufen, was es einer breiteren Palette von Forschern zugänglich macht. Unser Code, die Modellgewichte und die Daten sind öffentlich unter https://github.com/DeepSoftwareAnalytics/SoTaNa verfügbar.

Eventful Transformers: Nutzung zeitlicher Redundanz in Vision Transformern
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

Aug 25, 2023

Matthew Dutson, Yin Li, Mohit Gupta

102

Vision Transformers erzielen beeindruckende Genauigkeit bei einer Vielzahl von visuellen Erkennungsaufgaben. Leider geht ihre Genauigkeit häufig mit hohen Rechenkosten einher. Dies stellt insbesondere ein Problem bei der Videoerkennung dar, wo Modelle oft wiederholt auf einzelne Frames oder zeitliche Abschnitte angewendet werden. In dieser Arbeit nutzen wir die zeitliche Redundanz zwischen aufeinanderfolgenden Eingaben, um die Kosten von Transformern für die Videoverarbeitung zu reduzieren. Wir beschreiben eine Methode zur Identifizierung und erneuten Verarbeitung nur derjenigen Tokens, die sich im Laufe der Zeit signifikant verändert haben. Unsere vorgeschlagene Modellfamilie, die Eventful Transformers, kann aus bestehenden Transformern umgewandelt werden (oft ohne erneutes Training) und bietet eine adaptive Kontrolle über die Rechenkosten zur Laufzeit. Wir evaluieren unsere Methode auf groß angelegten Datensätzen für die Videoobjekterkennung (ImageNet VID) und die Handlungserkennung (EPIC-Kitchens 100). Unser Ansatz führt zu erheblichen Einsparungen bei den Rechenkosten (in der Größenordnung von 2-4x) bei nur geringfügigen Genauigkeitseinbußen.

Neurale Radiance Fields mit Schatten- und Highlight-Hinweisen neu beleuchten
Relighting Neural Radiance Fields with Shadow and Highlight Hints

Aug 25, 2023

Chong Zeng, Guojun Chen, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong

Dieses Papier stellt eine neuartige neurale implizite Radianzdarstellung für die freie Blickwinkelbeleuchtung aus einer kleinen Menge unstrukturierter Fotografien eines Objekts vor, das von einer sich bewegenden Punktlichtquelle beleuchtet wird, die sich von der Blickposition unterscheidet. Wir repräsentieren die Form als eine durch ein mehrschichtiges Perzeptron modellierte signierte Distanzfunktion. Im Gegensatz zu früheren beleuchtungsfähigen impliziten neuronalen Darstellungen trennen wir nicht die verschiedenen Reflexionskomponenten, sondern modellieren sowohl die lokale als auch die globale Reflexion an jedem Punkt durch ein zweites mehrschichtiges Perzeptron, das zusätzlich zu Dichtefeatures, der aktuellen Position, der Normalen (aus der signierten Distanzfunktion), der Blickrichtung und der Lichtposition auch Schatten- und Highlight-Hinweise verwendet, um dem Netzwerk bei der Modellierung der entsprechenden hochfrequenten Lichttransporteffekte zu helfen. Diese Hinweise werden als Vorschlag bereitgestellt, und wir überlassen es dem Netzwerk, zu entscheiden, wie diese in das endgültige beleuchtete Ergebnis integriert werden sollen. Wir demonstrieren und validieren unsere neurale implizite Darstellung an synthetischen und realen Szenen, die eine Vielzahl von Formen, Materialeigenschaften und globalen Beleuchtungstransporteffekten aufweisen.

OmniQuant: Omnidirektional kalibrierte Quantisierung für große Sprachmodelle
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

Aug 25, 2023

Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo

180

Tägliche Papers

Nougat: Neuronales Optisches Verständnis für akademische Dokumente
Nougat: Neural Optical Understanding for Academic Documents

OmniQuant: Omnidirektional kalibrierte Quantisierung für große Sprachmodelle
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

SoTaNa: Der Open-Source-Softwareentwicklungsassistent
SoTaNa: The Open-Source Software Development Assistant

Eventful Transformers: Nutzung zeitlicher Redundanz in Vision Transformern
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

Neurale Radiance Fields mit Schatten- und Highlight-Hinweisen neu beleuchten
Relighting Neural Radiance Fields with Shadow and Highlight Hints

Support

Support

Tägliche Papers

Nougat: Neuronales Optisches Verständnis für akademische Dokumente
Nougat: Neural Optical Understanding for Academic Documents

OmniQuant: Omnidirektional kalibrierte Quantisierung für große Sprachmodelle
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

SoTaNa: Der Open-Source-Softwareentwicklungsassistent
SoTaNa: The Open-Source Software Development Assistant

Eventful Transformers: Nutzung zeitlicher Redundanz in Vision Transformern
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

Neurale Radiance Fields mit Schatten- und Highlight-Hinweisen neu beleuchten
Relighting Neural Radiance Fields with Shadow and Highlight Hints