Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wissenschaftliches Wissen wird überwiegend in Büchern und wissenschaftlichen Zeitschriften gespeichert, oft in Form von PDFs. Das PDF-Format führt jedoch zu einem Verlust an semantischen Informationen, insbesondere bei mathematischen Ausdrücken. Wir stellen Nougat (Neural Optical Understanding for Academic Documents) vor, ein Visual-Transformer-Modell, das eine Optical Character Recognition (OCR)-Aufgabe zur Verarbeitung wissenschaftlicher Dokumente in eine Auszeichnungssprache durchführt, und demonstrieren die Effektivität unseres Modells anhand eines neuen Datensatzes wissenschaftlicher Dokumente. Der vorgeschlagene Ansatz bietet eine vielversprechende Lösung, um die Zugänglichkeit wissenschaftlichen Wissens im digitalen Zeitalter zu verbessern, indem er die Lücke zwischen menschenlesbaren Dokumenten und maschinenlesbarem Text überbrückt. Wir veröffentlichen die Modelle und den Code, um zukünftige Arbeiten zur Erkennung wissenschaftlicher Texte zu beschleunigen.
Große Sprachmodelle (LLMs) haben die Aufgaben der natürlichen Sprachverarbeitung revolutioniert. Ihre praktische Anwendung wird jedoch durch ihren immensen Speicher- und Rechenbedarf erschwert. Obwohl aktuelle Methoden der Post-Training-Quantisierung (PTQ) effektiv den Speicherbedarf reduzieren und die Recheneffizienz von LLMs verbessern, verwenden sie handgefertigte Quantisierungsparameter, was zu geringer Leistung führt und bei extrem niedriger Bit-Quantisierung versagt. Um dieses Problem zu lösen, führen wir eine omnidirektional kalibrierte Quantisierungstechnik (OmniQuant) für LLMs ein, die in verschiedenen Quantisierungseinstellungen gute Leistung erzielt und gleichzeitig die Recheneffizienz von PTQ durch effiziente Optimierung verschiedener Quantisierungsparameter beibehält. OmniQuant besteht aus zwei innovativen Komponenten: Learnable Weight Clipping (LWC) und Learnable Equivalent Transformation (LET). LWC moduliert die Extremwerte der Gewichte durch Optimierung des Clipping-Schwellenwerts. LET hingegen behandelt Ausreißer in den Aktivierungen, indem es die Herausforderung der Quantisierung von Aktivierungen auf Gewichte durch eine lernfähige äquivalente Transformation verschiebt. Innerhalb eines differenzierbaren Frameworks, das blockweise Fehlerminimierung verwendet, kann OmniQuant den Quantisierungsprozess effizient für sowohl Gewichts- als auch Gewichts-Aktivierungs-Quantisierung optimieren. Beispielsweise kann die LLaMA-2-Modellfamilie mit einer Größe von 7-70B mit OmniQuant auf einer einzelnen A100-40G-GPU innerhalb von 1-16 Stunden unter Verwendung von 128 Stichproben verarbeitet werden. Umfangreiche Experimente bestätigen die überlegene Leistung von OmniQuant in verschiedenen Quantisierungskonfigurationen wie W4A4, W6A6, W4A16, W3A16 und W2A16. Zusätzlich zeigt OmniQuant Wirksamkeit bei instruktionsoptimierten Modellen und erzielt bemerkenswerte Verbesserungen in der Inferenzgeschwindigkeit und Speicherreduzierung auf realen Geräten. Codes und Modelle sind verfügbar unter https://github.com/OpenGVLab/OmniQuant.
Die Softwareentwicklung spielt eine entscheidende Rolle bei der Förderung von Innovation und Effizienz in modernen Gesellschaften. Um den Anforderungen dieses dynamischen Feldes gerecht zu werden, besteht ein zunehmender Bedarf an einem effektiven Softwareentwicklungsassistenten. Allerdings leiden bestehende große Sprachmodelle, wie beispielsweise ChatGPT, unter eingeschränkter Zugänglichkeit, einschließlich der Trainingsdaten und Modellgewichte. Obwohl andere große Open-Source-Modelle wie LLaMA vielversprechend sind, haben sie immer noch Schwierigkeiten, menschliche Absichten zu verstehen. In diesem Artikel stellen wir SoTaNa vor, einen Open-Source-Softwareentwicklungsassistenten. SoTaNa nutzt ChatGPT, um hochwertige, anweisungsbasierte Daten für den Bereich der Softwareentwicklung zu generieren, und setzt einen parameter-effizienten Feinabstimmungsansatz ein, um das Open-Source-Basismodell LLaMA zu verbessern. Wir bewerten die Effektivität von SoTaNa bei der Beantwortung von Stack-Overflow-Fragen und demonstrieren seine Fähigkeiten. Darüber hinaus diskutieren wir seine Fähigkeiten in der Code-Zusammenfassung und -Generierung sowie die Auswirkungen der Variation des Umfangs der generierten Daten auf die Modellleistung. Bemerkenswerterweise kann SoTaNa auf einer einzelnen GPU laufen, was es einer breiteren Palette von Forschern zugänglich macht. Unser Code, die Modellgewichte und die Daten sind öffentlich unter https://github.com/DeepSoftwareAnalytics/SoTaNa verfügbar.
Vision Transformers erzielen beeindruckende Genauigkeit bei einer Vielzahl von visuellen Erkennungsaufgaben. Leider geht ihre Genauigkeit häufig mit hohen Rechenkosten einher. Dies stellt insbesondere ein Problem bei der Videoerkennung dar, wo Modelle oft wiederholt auf einzelne Frames oder zeitliche Abschnitte angewendet werden. In dieser Arbeit nutzen wir die zeitliche Redundanz zwischen aufeinanderfolgenden Eingaben, um die Kosten von Transformern für die Videoverarbeitung zu reduzieren. Wir beschreiben eine Methode zur Identifizierung und erneuten Verarbeitung nur derjenigen Tokens, die sich im Laufe der Zeit signifikant verändert haben. Unsere vorgeschlagene Modellfamilie, die Eventful Transformers, kann aus bestehenden Transformern umgewandelt werden (oft ohne erneutes Training) und bietet eine adaptive Kontrolle über die Rechenkosten zur Laufzeit. Wir evaluieren unsere Methode auf groß angelegten Datensätzen für die Videoobjekterkennung (ImageNet VID) und die Handlungserkennung (EPIC-Kitchens 100). Unser Ansatz führt zu erheblichen Einsparungen bei den Rechenkosten (in der Größenordnung von 2-4x) bei nur geringfügigen Genauigkeitseinbußen.
Dieses Papier stellt eine neuartige neurale implizite Radianzdarstellung für die freie Blickwinkelbeleuchtung aus einer kleinen Menge unstrukturierter Fotografien eines Objekts vor, das von einer sich bewegenden Punktlichtquelle beleuchtet wird, die sich von der Blickposition unterscheidet. Wir repräsentieren die Form als eine durch ein mehrschichtiges Perzeptron modellierte signierte Distanzfunktion. Im Gegensatz zu früheren beleuchtungsfähigen impliziten neuronalen Darstellungen trennen wir nicht die verschiedenen Reflexionskomponenten, sondern modellieren sowohl die lokale als auch die globale Reflexion an jedem Punkt durch ein zweites mehrschichtiges Perzeptron, das zusätzlich zu Dichtefeatures, der aktuellen Position, der Normalen (aus der signierten Distanzfunktion), der Blickrichtung und der Lichtposition auch Schatten- und Highlight-Hinweise verwendet, um dem Netzwerk bei der Modellierung der entsprechenden hochfrequenten Lichttransporteffekte zu helfen. Diese Hinweise werden als Vorschlag bereitgestellt, und wir überlassen es dem Netzwerk, zu entscheiden, wie diese in das endgültige beleuchtete Ergebnis integriert werden sollen. Wir demonstrieren und validieren unsere neurale implizite Darstellung an synthetischen und realen Szenen, die eine Vielzahl von Formen, Materialeigenschaften und globalen Beleuchtungstransporteffekten aufweisen.