papers.description
Große Sprachmodelle (LLMs) zeigen bemerkenswert leistungsstarke Fähigkeiten. Einer der entscheidenden Faktoren für den Erfolg besteht darin, die Ausgabe des LLMs mit menschlichen Präferenzen in Einklang zu bringen. Dieser Abstimmungsprozess erfordert oft nur eine geringe Menge an Daten, um die Leistung des LLMs effizient zu verbessern. Obwohl die Forschung in diesem Bereich wirksam ist, erstreckt sie sich über mehrere Domänen, und die beteiligten Methoden sind relativ komplex zu verstehen. Die Beziehungen zwischen verschiedenen Methoden wurden bisher nur unzureichend erforscht, was die Entwicklung der Präferenzabstimmung einschränkt. Vor diesem Hintergrund zerlegen wir die bestehenden beliebten Abstimmungsstrategien in verschiedene Komponenten und bieten ein vereinheitlichtes Rahmenwerk zur Untersuchung der aktuellen Abstimmungsstrategien, um so Verbindungen zwischen ihnen herzustellen. In dieser Übersicht zerlegen wir alle Strategien im Präferenzlernen in vier Komponenten: Modell, Daten, Rückmeldung und Algorithmus. Diese vereinheitlichte Sichtweise bietet ein tiefgreifendes Verständnis der bestehenden Abstimmungsalgorithmen und eröffnet auch Möglichkeiten, die Stärken verschiedener Strategien zu synergisieren. Darüber hinaus präsentieren wir detaillierte Arbeitsbeispiele gängiger bestehender Algorithmen, um den Lesern ein umfassendes Verständnis zu erleichtern. Abschließend, basierend auf unserer vereinheitlichten Perspektive, untersuchen wir die Herausforderungen und zukünftigen Forschungsrichtungen zur Abstimmung großer Sprachmodelle mit menschlichen Präferenzen.
Die Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat bedeutende Fortschritte verzeichnet. Allerdings sind die Menge und Qualität multimodaler Anweisungsdaten als signifikante Engpässe in ihrem Fortschritt aufgetreten. Die manuelle Erstellung multimodaler Anweisungsdaten ist sowohl zeitaufwändig als auch ineffizient und stellt Herausforderungen bei der Erstellung von Anweisungen hoher Komplexität dar. Darüber hinaus führt die Extraktion von Anweisungsdaten aus Black-Box-Kommerziellen Modellen (z. B. GPT-4o, GPT-4V) oft zu simplen Anweisungsdaten, was die Leistung auf die dieser Modelle beschränkt. Die Herausforderung, vielfältige und komplexe Anweisungsdaten zu kuratieren, bleibt erheblich. Wir schlagen MMEvol vor, ein neuartiges Rahmenwerk zur Evolution multimodaler Anweisungsdaten, das Feinkörnige Wahrnehmungsevolution, kognitive Denkevolution und Interaktionsevolution kombiniert. Dieser iterative Ansatz überwindet Engpässe bei der Datenqualität, um einen komplexen und vielfältigen Bild-Text-Anweisungsdatensatz zu generieren und damit MLLMs mit verbesserten Fähigkeiten auszustatten. Ausgehend von einem initialen Satz von Anweisungen, SEED-163K, nutzen wir MMEvol, um systematisch die Vielfalt der Anweisungstypen zu erweitern, Denkschritte zu integrieren, um kognitive Fähigkeiten zu verbessern, und detaillierte Informationen aus Bildern zu extrahieren, um das visuelle Verständnis und die Robustheit zu verbessern. Um die Effektivität unserer Daten umfassend zu bewerten, trainieren wir LLaVA-NeXT mit den weiterentwickelten Daten und führen Experimente in 13 Vision-Sprach-Aufgaben durch. Im Vergleich zur Baseline, die mit Seed-Daten trainiert wurde, erreicht unser Ansatz eine durchschnittliche Genauigkeitsverbesserung von 3,1 Punkten und erzielt bei 9 dieser Aufgaben eine State-of-the-Art (SOTA)-Leistung.
Trotz der jüngsten Fortschritte bei Large Language Models (LLMs), die die generativen Fähigkeiten für verschiedene NLP-Aufgaben erheblich verbessert haben, stehen LLMs immer noch vor Einschränkungen bei der direkten Bewältigung von Abrufaufgaben. Viele praktische Anwendungen erfordern jedoch die nahtlose Integration von Abruf und Generierung. Dieser Artikel stellt ein neuartiges und effizientes Ein-Durchgangs-Generierungs- und Abruf-Framework (OneGen) vor, das entwickelt wurde, um die Leistung von LLMs bei Aufgaben zu verbessern, die sowohl Generierung als auch Abruf erfordern. Das vorgeschlagene Framework überbrückt die traditionell getrennten Schulungsansätze für Generierung und Abruf, indem Abruf-Token autoregressiv generiert werden. Dies ermöglicht einem einzigen LLM, beide Aufgaben gleichzeitig in einem vereinheitlichten Vorwärtspass zu bewältigen. Wir führen Experimente mit zwei verschiedenen Arten von Verbundaufgaben, RAG und Entity Linking, durch, um die Einsetzbarkeit, Wirksamkeit und Effizienz von OneGen bei Schulung und Inferenz zu validieren. Darüber hinaus zeigen unsere Ergebnisse, dass die Integration von Generierung und Abruf im selben Kontext die generativen Fähigkeiten von LLMs bewahrt und gleichzeitig die Abrufleistung verbessert. Nach unserem Kenntnisstand ist OneGen das erste, das es LLMs ermöglicht, während der Generierung Vektorabrufe durchzuführen.
Die Retrieval-gestützte Generierung (RAG) nutzt Abrufwerkzeuge, um auf externe Datenbanken zuzugreifen und damit die Generierungsqualität großer Sprachmodelle (LLMs) durch optimierten Kontext zu verbessern. Die bestehenden Abrufmethoden sind jedoch inhärent eingeschränkt, da sie nur Relevanzabgleiche zwischen explizit angegebenen Abfragen und gut strukturiertem Wissen durchführen können, aber nicht in der Lage sind, Aufgaben mit unklaren Informationsbedürfnissen oder unstrukturiertem Wissen zu bewältigen. Folglich sind bestehende RAG-Systeme hauptsächlich für einfache Frage-Antwort-Aufgaben effektiv. In dieser Arbeit schlagen wir MemoRAG vor, ein neuartiges, durch Langzeitgedächtnis gestütztes Abruf-Generierungs-Paradigma. MemoRAG verwendet eine Dualsystem-Architektur. Einerseits setzt es ein leichtes, aber weitreichendes LLM ein, um das globale Gedächtnis der Datenbank zu bilden. Sobald eine Aufgabe präsentiert wird, generiert es erste Antworten und gibt den Abrufwerkzeugen Hinweise, um nützliche Informationen in der Datenbank zu finden. Andererseits nutzt es ein teures, aber ausdrucksstarkes LLM, das die endgültige Antwort basierend auf den abgerufenen Informationen generiert. Aufbauend auf diesem allgemeinen Rahmen optimieren wir weiter die Leistung von MemoRAG, indem wir den Hinweismechanismus und die Merkfähigkeit verbessern. In unserem Experiment erzielt MemoRAG eine überlegene Leistung bei einer Vielzahl von Evaluationsaufgaben, einschließlich komplexer Aufgaben, bei denen herkömmliche RAG versagen, und einfacher Aufgaben, bei denen RAG üblicherweise angewendet wird.
Mit der zunehmenden Verbreitung wissenschaftlicher Forschung sehen sich Forscher der einschüchternden Aufgabe gegenüber, große Mengen an Literatur zu durchsuchen und zu lesen. Bestehende Lösungen wie Dokumenten-Frage-Antwort-Systeme können keine personalisierten und aktuellen Informationen effizient bereitstellen. Wir stellen Paper Copilot vor, ein selbstlernendes, effizientes LLM-System, das Forschern auf der Grundlage von Gedankenabruf, Benutzerprofil und Hochleistungsoptimierung helfen soll. Konkret kann Paper Copilot personalisierte Forschungsdienste anbieten und eine in Echtzeit aktualisierte Datenbank pflegen. Quantitative Evaluationen zeigen, dass Paper Copilot nach effizienter Bereitstellung 69,92\% Zeit einspart. Dieser Artikel beschreibt das Design und die Implementierung von Paper Copilot, hebt dessen Beitrag zur personalisierten akademischen Unterstützung hervor und zeigt sein Potenzial zur Optimierung des Forschungsprozesses auf.
In den letzten Jahren haben Vision-Sprach-Modelle bedeutende Fortschritte gemacht und sich in Aufgaben wie optischer Zeichenerkennung und geometrischer Problemlösung hervorgetan. Es bestehen jedoch mehrere kritische Probleme: 1) Eigentumsmodelle sind oft intransparent hinsichtlich ihrer Architekturen, während Open-Source-Modelle detailliertere Ablationen ihrer Trainingsstrategien benötigen. 2) Die Vorverarbeitungsdaten in Open-Source-Arbeiten sind unzureichend erforscht, wobei Datensätze empirisch hinzugefügt werden, was den Prozess umständlich macht. 3) Feinabstimmung konzentriert sich oft darauf, Datensätze hinzuzufügen, was zu abnehmenden Erträgen führt. Um diese Probleme anzugehen, schlagen wir folgende Beiträge vor: 1) Wir haben ein robustes Basismodell unter Verwendung der neuesten Fortschritte in Vision-Sprach-Modellen trainiert, indem wir effektive Verbesserungen einführten und für jede Technik umfassende Ablation und Validierung durchführten. 2) Inspiriert von aktuellen Arbeiten zu großen Sprachmodellen haben wir Vorverarbeitungsdaten mithilfe von Perplexität gefiltert und die Daten mit der niedrigsten Perplexität für das Training ausgewählt. Dieser Ansatz ermöglichte es uns, auf einem kuratierten Datensatz von 1M zu trainieren und eine wettbewerbsfähige Leistung zu erzielen. 3) Bei der Feinabstimmung der visuellen Anweisungen haben wir Modell-Soup auf verschiedenen Datensätzen verwendet, wenn das Hinzufügen weiterer Datensätze nur geringfügige Verbesserungen brachte. Diese Innovationen führten zu einem 9B-Parameter-Modell, das wettbewerbsfähig mit State-of-the-Art-Modellen abschneidet. Unsere Strategien sind effizient und leichtgewichtig, was ihre einfache Übernahme durch die Gemeinschaft ermöglicht.
Robotermodelle, insbesondere solche, die mit großen Datenmengen trainiert wurden, haben kürzlich eine Vielzahl von Fähigkeiten zur Manipulation und Navigation in der realen Welt gezeigt. Mehrere unabhängige Bemühungen haben gezeigt, dass Roboterpolitiken bei ausreichender Trainingsdatenmenge in einer Umgebung auf gezeigte Variationen in dieser Umgebung verallgemeinern können. Die Notwendigkeit, Robotermodelle für jede neue Umgebung feinabzustimmen, steht jedoch im starken Kontrast zu Modellen in Sprache oder Vision, die ohne Anpassung für Open-World-Probleme eingesetzt werden können. In dieser Arbeit präsentieren wir Robot Utility Models (RUMs), ein Rahmenwerk für das Training und die Bereitstellung von Zero-Shot-Roboterpolitiken, die direkt auf neue Umgebungen verallgemeinern können, ohne jegliche Feinabstimmung. Um RUMs effizient zu erstellen, entwickeln wir neue Tools zum schnellen Sammeln von Daten für mobile Manipulationstätigkeiten, integrieren solche Daten in eine Politik mit multimodalem Imitationslernen und setzen Politiken geräteintern auf dem günstigen Handelsroboter Hello Robot Stretch ein, mit einem externen mLLM-Verifizierer für Wiederholungen. Wir trainieren fünf solcher Nutzmodelle für das Öffnen von Schranktüren, das Öffnen von Schubladen, das Aufnehmen von Servietten, das Aufnehmen von Papiertüten und das Neuorientieren von umgefallenen Objekten. Unser System erreicht im Durchschnitt eine Erfolgsrate von 90% in unbekannten, neuen Umgebungen, in denen mit unbekannten Objekten interagiert wird. Darüber hinaus können die Nutzmodelle auch in verschiedenen Roboter- und Kamerakonfigurationen ohne weitere Daten, Training oder Feinabstimmung erfolgreich sein. Zu den wichtigsten Erkenntnissen gehören die Bedeutung von Trainingsdaten gegenüber Trainingsalgorithmus und Politikklasse, Anleitungen zur Datenskalierung, die Notwendigkeit von vielfältigen, aber qualitativ hochwertigen Demonstrationen und ein Rezept für die Roboterintrospektion und Wiederholung zur Verbesserung der Leistung in einzelnen Umgebungen. Unser Code, unsere Daten, Modelle, Hardware-Designs sowie unsere Experiment- und Bereitstellungsvideos sind Open Source und können auf unserer Projektwebsite gefunden werden: https://robotutilitymodels.com
Obwohl Large Language Models (LLMs) bemerkenswerte generative Fähigkeiten aufweisen, sind sie nicht ohne Mängel, insbesondere in Form von Halluzinationen. Dieses Problem tritt noch deutlicher zutage, wenn LLMs auf spezifische Sprachen und Fachgebiete angewendet werden. Zum Beispiel können LLMs unsinnige Informationen generieren, wenn sie mit chinesischer antiker Dichtung, Sprichwörtern oder Redewendungen umgehen, aufgrund des Mangels an spezifischem Wissen. Zu diesem Zweck stellt dieser Artikel einen Maßstab zur Korrektur des chinesischen Wissens in LLMs durch Wissensbearbeitung vor. Speziell führen wir ein neues chinesisches Datenset, CKnowEdit, ein, indem wir sieben Arten von Wissen aus verschiedenen Quellen sammeln, einschließlich klassischer Texte, Redewendungen und Inhalten von Baidu Tieba Ruozhiba, wodurch die einzigartige Polyphonie, Antithese und logische Strukturen der chinesischen Sprache berücksichtigt werden. Durch die Analyse dieses Datensets decken wir die Herausforderungen auf, denen aktuelle LLMs bei der Beherrschung des Chinesischen gegenüberstehen. Darüber hinaus zeigen unsere Bewertungen modernster Techniken zur Wissensbearbeitung anhand dieses Datensets das erhebliche Potenzial für Fortschritte bei der Korrektur des chinesischen Wissens auf. Code und Datenset sind verfügbar unter https://github.com/zjunlp/EasyEdit.
Wir stellen einen Leistungsmaßstab vor, um die Übereinstimmung zwischen menschlichen Beobachtern und Vision-Modellen bei einer 3D-Forminferenzaufgabe direkt zu bewerten. Wir nutzen ein experimentelles Design aus den Kognitionswissenschaften, das Nullschuss-Visuale Inferenzen über Objektform erfordert: Teilnehmer identifizieren anhand einer Bilderserie, welche die gleichen/unterschiedlichen Objekte enthalten, trotz erheblicher Blickwinkelvariation. Wir greifen auf eine Vielzahl von Bildern zurück, die alltägliche Objekte (z. B. Stühle) sowie abstrakte Formen (d. h. prozedural generierte 'Nonsens'-Objekte) umfassen. Nach der Erstellung von über 2000 einzigartigen Bildersets führen wir diese Aufgaben mit menschlichen Teilnehmern durch und sammeln 35.000 Versuche an Verhaltensdaten von über 500 Teilnehmern. Dies umfasst explizite Wahlverhalten sowie Zwischenmaße wie Reaktionszeit und Blickdaten. Anschließend bewerten wir die Leistung gängiger Vision-Modelle (z. B. DINOv2, MAE, CLIP). Wir stellen fest, dass Menschen alle Modelle bei weitem übertreffen. Unter Verwendung eines Multi-Skalen-Bewertungsansatzes identifizieren wir zugrunde liegende Ähnlichkeiten und Unterschiede zwischen Modellen und Menschen: Während die Leistung von Mensch und Modell korreliert ist, verwenden Menschen mehr Zeit/Verarbeitung bei anspruchsvollen Versuchen. Alle Bilder, Daten und Codes sind über unsere Projektseite zugänglich.
Diese Studie präsentiert mehrere Beiträge für die karakalpakische Sprache: ein FLORES+ Devtest-Datenset, das ins Karakalpakische übersetzt wurde, parallele Korpora für Usbekisch-Karakalpakisch, Russisch-Karakalpakisch und Englisch-Karakalpakisch mit jeweils 100.000 Paaren sowie Open-Source-feinabgestimmte neuronale Modelle für Übersetzungen zwischen diesen Sprachen. Unsere Experimente vergleichen verschiedene Modellvarianten und Trainingsansätze und zeigen Verbesserungen gegenüber bestehenden Ausgangspunkten. Diese Arbeit, die im Rahmen der Open Language Data Initiative (OLDI) durchgeführt wurde, zielt darauf ab, die Fähigkeiten der maschinellen Übersetzung für das Karakalpakische voranzutreiben und zur Erweiterung der sprachlichen Vielfalt in NLP-Technologien beizutragen.
Die wachsende Kundennachfrage nach intelligenten Lösungen in Robotik und erweiterter Realität hat erhebliche Aufmerksamkeit auf die 3D-Objekterkennung aus Punktwolken gelenkt. Dennoch sind bestehende Innenraum-Datensätze einzeln betrachtet zu klein und unzureichend vielfältig, um ein leistungsstarkes und allgemeines 3D-Objekterkennungsmodell zu trainieren. In der Zwischenzeit sind allgemeinere Ansätze, die auf Grundlagenmodellen beruhen, immer noch von geringerer Qualität als solche, die auf überwachtem Training für eine spezifische Aufgabe basieren. In dieser Arbeit schlagen wir ein einfaches, aber effektives 3D-Objekterkennungsmodell vor, das auf einer Mischung von Innenraum-Datensätzen trainiert wird und in der Lage ist, in verschiedenen Innenumgebungen zu arbeiten. Durch die Vereinheitlichung verschiedener Labelräume ermöglicht es , eine starke Repräsentation über mehrere Datensätze hinweg durch ein überwachtes gemeinsames Trainingsschema zu erlernen. Die vorgeschlagene Netzwerkarchitektur basiert auf einem Vanilla-Transformer-Encoder, was es einfach macht, die Vorhersagepipeline für den praktischen Einsatz auszuführen, anzupassen und zu erweitern. Umfangreiche Experimente zeigen, dass signifikante Verbesserungen gegenüber bestehenden 3D-Objekterkennungsmethoden in 6 Innenraum-Benchmarks erzielt: ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) und ScanNet++ (+2,7 mAP50). Der Code ist verfügbar unter https://github.com/filapro/unidet3d.
Dieses Paper präsentiert Erkenntnisse aus der Evaluierung von 16 fortschrittlichen großen Sprachmodellen (Large Language Models, LLMs) am WebApp1K Benchmark, einem Testset, das entworfen wurde, um die Fähigkeit von LLMs zur Generierung von Webanwendungscode zu bewerten. Die Ergebnisse zeigen, dass, obwohl alle Modelle über ähnliches zugrunde liegendes Wissen verfügen, ihre Leistung sich durch die Häufigkeit von Fehlern unterscheidet. Durch die Analyse von Codezeilen (LOC) und Fehlerverteilungen stellen wir fest, dass das Schreiben von korrektem Code komplexer ist als das Generieren von fehlerhaftem Code. Darüber hinaus zeigt die Prompt-Entwicklung nur begrenzte Wirksamkeit bei der Reduzierung von Fehlern über spezifische Fälle hinaus. Diese Erkenntnisse legen nahe, dass weitere Fortschritte bei der Kodierung von LLMs den Schwerpunkt auf Modellzuverlässigkeit und Fehlerminimierung legen sollten.