Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle Arbeiten zeigen, dass ein Modell, das auf einem hochwertigen Instruktionsdatensatz feinabgestimmt wurde, beeindruckende Fähigkeiten erlangen kann, um eine Vielzahl von Aufgaben zu bewältigen. Allerdings erzeugen bestehende Methoden zur Generierung von Instruktionsdaten oft doppelte Daten und bieten nicht ausreichend Kontrolle über die Datenqualität. In diesem Artikel erweitern wir die Generalisierung des Instruktions-Tunings, indem wir die Instruktionsdaten in vier codebezogene Aufgaben klassifizieren und ein LLM-basiertes Generator-Discriminator-Datenverarbeitungsframework vorschlagen, um vielfältige, hochwertige Instruktionsdaten aus Open-Source-Code zu generieren. Daher führen wir CodeOcean ein, einen Datensatz, der 20.000 Instruktionsinstanzen über vier universelle codebezogene Aufgaben umfasst und darauf abzielt, die Effektivität des Instruktions-Tunings zu steigern sowie die Generalisierungsfähigkeit des feinabgestimmten Modells zu verbessern. Anschließend präsentieren wir WaveCoder, ein feinabgestimmtes Code-LLM mit weitreichendem und vielseitig verbessertem Instruktions-Tuning. Dieses Modell ist speziell für die Verbesserung des Instruktions-Tunings von Code Language Models (LLMs) konzipiert. Unsere Experimente zeigen, dass WaveCoder-Modelle andere Open-Source-Modelle in Bezug auf die Generalisierungsfähigkeit über verschiedene codebezogene Aufgaben auf demselben Feinabstimmungsniveau übertreffen. Darüber hinaus weist WaveCoder eine hohe Effizienz in früheren Code-Generierungsaufgaben auf. Dieser Artikel leistet somit einen bedeutenden Beitrag zum Bereich der Instruktionsdatengenerierung und des Feinabstimmens von Modellen, indem er neue Erkenntnisse und Werkzeuge zur Leistungssteigerung in codebezogenen Aufgaben bereitstellt.
Das exponentielle Wachstum großer Sprachmodelle (LLMs) hat zahlreiche Möglichkeiten für multimodale AGI-Systeme eröffnet. Der Fortschritt bei visuellen und visuell-sprachlichen Basismodellen, die ebenfalls entscheidende Elemente multimodaler AGI sind, konnte jedoch nicht mit den LLMs Schritt halten. In dieser Arbeit entwickeln wir ein großskaliges visuell-sprachliches Basismodell (InternVL), das das visuelle Basismodell auf 6 Milliarden Parameter hochskaliert und es schrittweise mit dem großen Sprachmodell abstimmt, wobei web-skalierte Bild-Text-Daten aus verschiedenen Quellen verwendet werden. Dieses Modell kann breit angewendet werden und erzielt Spitzenleistungen bei visuellen Wahrnehmungsaufgaben wie der Bild- oder Pixel-Erkennung, visuell-sprachlichen Aufgaben wie der Zero-Shot-Bild-/Video-Klassifizierung, der Zero-Shot-Bild-/Video-Text-Retrieval sowie der Verknüpfung mit LLMs zur Erstellung multimodaler Dialogsysteme. Wir hoffen, dass unsere Forschung zur Entwicklung multimodaler Großmodelle beitragen kann. Code und Modelle sind unter https://github.com/OpenGVLab/InternVL verfügbar.
Als Menschen interagieren wir ständig mit unseren Mitmenschen und erhalten Rückmeldungen in Form von natürlicher Sprache. Diese sprachlichen Rückmeldungen ermöglichen es uns, über unsere Handlungen nachzudenken, angemessenes Verhalten beizubehalten und unsere Fehler zu korrigieren. Es stellt sich daher die naheliegende Frage: Können wir sprachliche Rückmeldungen nutzen, um große Sprachmodelle (LLMs) auszurichten? Im Gegensatz zu früheren Forschungsarbeiten, die LLMs mit Belohnungs- oder Präferenzdaten ausrichten, präsentieren wir die erste systematische Untersuchung der Ausrichtung durch die Linse sprachlicher Rückmeldungen (d. h. Urteile). Wir beginnen mit einer detaillierten Untersuchung potenzieller Methoden, die für die Ausrichtung von LLMs mit Urteilen angepasst werden können, und zeigen, dass diese Methoden die Urteile nicht vollständig nutzen können. Um eine effektivere Nutzung von Urteilen zu ermöglichen, schlagen wir ein neuartiges Framework vor, das Contrastive Unlikelihood Training (CUT), das eine fein abgestimmte Erkennung und Korrektur unangemessener Inhalte auf der Grundlage von Urteilen ermöglicht. Unsere Offline-Ausrichtungsergebnisse zeigen, dass CUT (LLaMA2-13b) mit lediglich 1317 vorgefertigten Urteilsdaten das 175B DaVinci003 übertreffen und den besten Baseline-Wert auf AlpacaEval um 52,34 Punkte überbieten kann. Die Online-Ausrichtungsergebnisse demonstrieren, dass CUT LLMs (LLaMA2-chat-13b) in einem iterativen Prozess mit modellspezifischen Urteilsdaten ausrichten kann, wobei die Leistung kontinuierlich von 81,09 auf 91,36 Punkte auf AlpacaEval verbessert wird. Unsere Analyse deutet weiterhin darauf hin, dass Urteile ein größeres Potenzial als Belohnungen für die Ausrichtung von LLMs aufweisen und zukünftige Forschung rechtfertigen.
Menschen verfügen über die bemerkenswerte Fähigkeit der visuellen Wahrnehmung, die es ihnen ermöglicht, zu sehen und das Gesehene zu verstehen, wodurch sie die visuelle Welt erfassen und daraufhin schlussfolgern können. Multimodale Large Language Models (MLLM) haben in letzter Zeit beeindruckende Leistungen bei visuell-sprachlichen Aufgaben gezeigt, die von visuellen Frage-Antwort-Systemen und Bildbeschreibungen bis hin zu visuellem Schließen und Bildgenerierung reichen. Wenn sie jedoch aufgefordert werden, die Entitäten in einem gegebenen Bild zu identifizieren oder zu zählen (wahrzunehmen), scheitern bestehende MLLM-Systeme. Um ein präzises MLLM-System für Wahrnehmung und Schließen zu entwickeln, schlagen wir die Verwendung von vielseitigen Vision Encodern (VCoder) als Wahrnehmungsaugen für multimodale LLMs vor. Wir speisen den VCoder mit Wahrnehmungsmodalitäten wie Segmentierungs- oder Tiefenkarten, wodurch die Wahrnehmungsfähigkeiten des MLLM verbessert werden. Zweitens nutzen wir die Bilder aus COCO und die Ausgaben von verfügbaren visuellen Wahrnehmungsmodellen, um unser COCO Segmentation Text (COST) Datenset zu erstellen, das für das Training und die Bewertung von MLLMs bei der Objektwahrnehmungsaufgabe verwendet wird. Drittens führen wir Metriken ein, um die Objektwahrnehmungsfähigkeiten von MLLMs auf unserem COST-Datensatz zu bewerten. Schließlich liefern wir umfangreiche experimentelle Belege, die die verbesserten objektbezogenen Wahrnehmungsfähigkeiten des VCoders im Vergleich zu bestehenden multimodalen LLMs, einschließlich GPT-4V, belegen. Wir stellen unser Datenset, unseren Code und unsere Modelle als Open Source zur Verfügung, um die Forschung zu fördern. Unser Code ist unter https://github.com/SHI-Labs/VCoder verfügbar.
Eine zentrale Methode zur Erstellung von Künstlicher Intelligenz (KI)-Agenten ist das Reinforcement Learning (RL). Allerdings stößt die Konstruktion einer eigenständigen RL-Politik, die Wahrnehmung direkt in Aktionen abbildet, auf erhebliche Probleme, vor allem auf deren mangelnde Allgemeingültigkeit über mehrere Aufgaben hinweg und den Bedarf an einer großen Menge an Trainingsdaten. Die Hauptursache hierfür ist, dass sie bei der Entwicklung der Politk nicht effektiv Vorwissen in den Wahrnehmungs-Aktions-Zyklus integrieren kann. Große Sprachmodelle (LLMs) haben sich als grundlegende Möglichkeit erwiesen, domänenübergreifendes Wissen in KI-Agenten einzubinden, ihnen fehlt jedoch die entscheidende Lern- und Anpassungsfähigkeit für spezifische Entscheidungsprobleme. Dieses Papier stellt ein allgemeines Rahmenmodell vor, das strukturiertes Denken in die Politiken von KI-Agenten integriert und erlernt. Unsere Methodik ist von der Modularität des menschlichen Gehirns inspiriert. Das Framework nutzt die Konstruktion intrinsischer und extrinsischer Funktionen, um vorheriges Verständnis von Denkstrukturen einzubinden. Es bietet zudem die adaptive Fähigkeit, Modelle innerhalb jedes Moduls oder jeder Funktion zu lernen, was mit der modularen Struktur kognitiver Prozesse übereinstimmt. Wir beschreiben das Framework detailliert und vergleichen es mit anderen KI-Pipelines und bestehenden Frameworks. Das Papier untersucht praktische Anwendungen und umfasst Experimente, die die Wirksamkeit unserer Methode zeigen. Unsere Ergebnisse deuten darauf hin, dass KI-Agenten deutlich besser abschneiden und sich anpassen, wenn strukturiertes Denken und Vorwissen eingebettet sind. Dies ebnet den Weg für widerstandsfähigere und allgemeinere KI-Agentensysteme.
Als die neuesten Fortschritte in der natürlichen Sprachverarbeitung haben große Sprachmodelle (LLMs) in vielen realen Anwendungen menschenähnliche Fähigkeiten im Sprachverständnis und in der Sprachgenerierung erreicht und werden sogar als ein potenzieller Weg zur künstlichen allgemeinen Intelligenz betrachtet. Um die Forschung an LLMs besser zu fördern, wurden kürzlich viele Open-Source-LLMs wie Llama 2 und Falcon vorgeschlagen, die vergleichbare Leistungen wie proprietäre Modelle erzielen. Diese Modelle sind jedoch hauptsächlich für englischsprachige Szenarien konzipiert und zeigen in chinesischen Kontexten schwache Leistungen. In diesem technischen Bericht stellen wir YAYI 2 vor, das sowohl Basis- als auch Chat-Modelle mit 30 Milliarden Parametern umfasst. YAYI 2 wurde von Grund auf mit einem mehrsprachigen Korpus trainiert, der 2,65 Billionen Token enthält, die durch unsere Vorverarbeitungspipeline für Trainingsdaten gefiltert wurden. Das Basismodell wird durch überwachtes Feinabstimmen mit Millionen von Anweisungen und Reinforcement Learning aus menschlichem Feedback an menschliche Werte angepasst. Umfangreiche Experimente auf mehreren Benchmarks wie MMLU und CMMLU zeigen durchweg, dass das vorgeschlagene YAYI 2 andere Open-Source-Modelle ähnlicher Größe übertrifft.
Angriffe auf Sprachmodelle gehen typischerweise von einem von zwei extremen Bedrohungsmodellen aus: vollständiger White-Box-Zugriff auf die Modellgewichte oder Black-Box-Zugriff, der auf eine Textgenerierungs-API beschränkt ist. In der Praxis sind APIs jedoch oft flexibler als nur die Textgenerierung: Diese APIs bieten „Gray-Box“-Zugriff, was zu neuen Bedrohungsvektoren führt. Um dies zu untersuchen, haben wir drei neue Funktionen, die in den GPT-4-APIs verfügbar gemacht werden, einem Red-Teaming unterzogen: Feinabstimmung, Funktionsaufrufe und Wissensabruf. Wir stellen fest, dass die Feinabstimmung eines Modells mit nur 15 schädlichen oder 100 harmlosen Beispielen die zentralen Sicherheitsvorkehrungen von GPT-4 entfernen kann, was eine Reihe von schädlichen Ausgaben ermöglicht. Darüber hinaus stellen wir fest, dass GPT-4-Assistenten das Schema für Funktionsaufrufe bereitwillig preisgeben und dazu gebracht werden können, beliebige Funktionsaufrufe auszuführen. Schließlich zeigen wir, dass der Wissensabruf durch das Einfügen von Anweisungen in die abgerufenen Dokumente manipuliert werden kann. Diese Schwachstellen verdeutlichen, dass jede Erweiterung der durch eine API verfügbar gemachten Funktionalität neue Sicherheitslücken schaffen kann.
Die 3D-Rekonstruktion aus einer Einzelansicht ist aufgrund der Mehrdeutigkeit monokularer Hinweise und des Mangels an Informationen über verdeckte Bereiche eine Herausforderung. Neuronale Strahlungsfelder (NeRF), obwohl beliebt für die Ansichtsynthese und 3D-Rekonstruktion, sind typischerweise auf Mehrbildansichten angewiesen. Bestehende Methoden für die Einzelansicht-3D-Rekonstruktion mit NeRF stützen sich entweder auf Datenpriors, um Ansichten verdeckter Bereiche zu erzeugen, die physikalisch nicht korrekt sein können, oder auf Schatten, die von RGB-Kameras beobachtet werden, die jedoch in Umgebungslicht und bei niedrigen Albedo-Hintergründen schwer zu erkennen sind. Wir schlagen vor, Time-of-Flight-Daten, die von einer Einzelphotonen-Avalanche-Diode erfasst werden, zu nutzen, um diese Einschränkungen zu überwinden. Unsere Methode modelliert Zwei-Rückprall-Lichtpfade mit NeRF und verwendet Lidar-Transientdaten zur Überwachung. Indem wir die Vorteile von NeRF und dem von Lidar gemessenen Zwei-Rückprall-Licht nutzen, zeigen wir, dass wir sichtbare und verdeckte Geometrie ohne Datenpriors oder Abhängigkeit von kontrolliertem Umgebungslicht oder Szenenalbedo rekonstruieren können. Darüber hinaus demonstrieren wir eine verbesserte Generalisierung unter praktischen Einschränkungen der räumlichen und zeitlichen Auflösung des Sensors. Wir glauben, dass unsere Methode eine vielversprechende Richtung ist, da Einzelphotonen-Lidars auf Verbrauchergeräten wie Telefonen, Tablets und Headsets immer häufiger werden.
Obwohl CLIP das Grundmodell für zahlreiche Vision-Sprache-Anwendungen ist, leidet CLIP unter einer starken Text-Erkennungsverzerrung. Diese Verzerrung führt dazu, dass CLIP-Modelle den in Bildern eingebetteten visuellen Text „nachplappern“, während sie die eigentliche visuelle Semantik vernachlässigen. Wir decken auf, dass in dem beliebtesten Bild-Text-Datensatz LAION-2B die Bildunterschriften ebenfalls häufig den in Bildern eingebetteten Text buchstabengetreu wiedergeben. Unsere Analyse zeigt, dass etwa 50 % der Bilder visuellen Text enthalten und 90 % ihrer Bildunterschriften diesen Text mehr oder weniger nachahmen. Basierend auf dieser Beobachtung untersuchen wir gründlich die verschiedenen veröffentlichten Versionen der CLIP-Modelle und bestätigen, dass der visuelle Text der dominierende Faktor bei der Messung der LAION-ähnlichen Bild-Text-Ähnlichkeit für diese Modelle ist. Um zu prüfen, ob diese nachahmenden Bildunterschriften die Text-Erkennungsverzerrung prägen, trainieren wir eine Reihe von CLIP-Modellen mit LAION-Teilgruppen, die nach verschiedenen Kriterien im Hinblick auf nachahmende Bildunterschriften kuratiert wurden. Wir zeigen, dass das Training mit nachahmenden Bildunterschriften diese Verzerrung leicht verstärkt, jedoch das erwartete visuell-sprachliche Repräsentationslernen in CLIP-Modellen beeinträchtigt. Dies deutet darauf hin, dass es dringend notwendig ist, entweder das Design von CLIP-ähnlichen Modellen oder die bestehende Kuratierungspipeline für Bild-Text-Datensätze, die auf CLIP-Score-Filterung basiert, zu überdenken.
Die Popularisierung von Text-zu-Bild (T2I) Diffusionsmodellen ermöglicht die Erzeugung hochwertiger Bilder aus Textbeschreibungen. Die Generierung vielfältiger, personalisierter Bilder mit referenziellen visuellen Attributen bleibt jedoch eine Herausforderung. Diese Arbeit konzentriert sich auf die Personalisierung von T2I-Diffusionsmodellen auf einer abstrakteren Konzept- oder Kategorieebene, indem Gemeinsamkeiten aus einer Reihe von Referenzbildern adaptiert werden, während gleichzeitig neue Instanzen mit ausreichenden Variationen erzeugt werden. Wir stellen eine Lösung vor, die es einem vortrainierten T2I-Diffusionsmodell ermöglicht, eine Reihe von Soft Prompts zu lernen, wodurch die Generierung neuer Bilder durch das Sampling von Prompts aus der gelernten Verteilung ermöglicht wird. Diese Prompts bieten textgesteuerte Bearbeitungsmöglichkeiten und zusätzliche Flexibilität bei der Kontrolle von Variationen und der Mischung zwischen mehreren Verteilungen. Wir zeigen auch die Anpassungsfähigkeit der gelernten Prompt-Verteilung für andere Aufgaben, wie Text-zu-3D. Schließlich demonstrieren wir die Wirksamkeit unseres Ansatzes durch quantitative Analysen, einschließlich automatischer Bewertungen und menschlicher Beurteilungen. Projektwebsite: https://briannlongzhao.github.io/DreamDistribution
Wir untersuchen das Problem der 3D-Formrekonstruktion aus einem einzelnen Bild im Zero-Shot-Szenario. Aktuelle Arbeiten lernen die Zero-Shot-Formrekonstruktion durch generative Modellierung von 3D-Assets, doch diese Modelle sind sowohl im Training als auch bei der Inferenz rechenintensiv. Im Gegensatz dazu basiert der traditionelle Ansatz auf Regression, bei dem deterministische Modelle trainiert werden, um die Objektform direkt zu regressieren. Solche Regressionsmethoden sind deutlich recheneffizienter als generative Methoden. Dies wirft die naheliegende Frage auf: Ist generative Modellierung für hohe Leistung notwendig, oder sind regressionsbasierte Ansätze immer noch wettbewerbsfähig? Um dies zu beantworten, entwickeln wir ein leistungsstarkes regressionsbasiertes Modell namens ZeroShape, das auf den konvergierenden Erkenntnissen in diesem Bereich und einer neuartigen Einsicht basiert. Zudem stellen wir einen umfangreichen Evaluationsbenchmark aus der realen Welt zusammen, der Objekte aus drei verschiedenen realen 3D-Datensätzen enthält. Dieser Evaluationsbenchmark ist vielfältiger und um eine Größenordnung größer als diejenigen, die in früheren Arbeiten zur quantitativen Bewertung der Modelle verwendet wurden, mit dem Ziel, die Evaluationsvarianz in unserem Feld zu reduzieren. Wir zeigen, dass ZeroShape nicht nur eine überlegene Leistung gegenüber state-of-the-art Methoden erzielt, sondern auch eine deutlich höhere Rechen- und Dateneffizienz aufweist.
Die Abkürzungserweiterung ist eine Strategie, die verwendet wird, um die Kommunikation zu beschleunigen, indem die Menge des Tippens reduziert und ein Sprachmodell zur Vorschlagsgenerierung von Erweiterungen eingesetzt wird. Hier untersuchen wir die Personalisierung der Vorschläge eines Large Language Models (LLM) basierend auf vorherigen Konversationen, um die Relevanz der Vorhersagen zu verbessern, insbesondere wenn die Nutzerdatenmenge gering ist (~1000 Beispiele). Konkret vergleichen wir Fine-Tuning, Prompt-Tuning und retrieval-augmentierte Generierung von erweiterten Textvorschlägen für abgekürzte Eingaben. Unsere Fallstudie mit einem eingesetzten 8B-Parameter-LLM bei einem realen Nutzer mit ALS sowie Experimente zur Personalisierung von Filmcharakteren zeigen, dass (1) in einigen Szenarien eine Anpassung notwendig sein kann und Prompt-Tuning sich dafür gut eignet, (2) Fine-Tuning mit domänenspezifischen Daten (mit nur 600 Beispielen) dennoch gewisse Verbesserungen bringt, jedoch (3) retrieval-augmentierte Few-Shot-Auswahl das Fine-Tuning übertrifft. (4) Parameter-effizientes Tuning ermöglicht eine effiziente und skalierbare Personalisierung. Für das Prompt-Tuning stellen wir außerdem fest, dass die Initialisierung der gelernten „Soft-Prompts“ mit nutzerrelevanten Konzept-Tokens zu einer höheren Genauigkeit führt als eine zufällige Initialisierung.
Mit der Weiterentwicklung großskaliger generativer KI-Modelle, die über die Textgenerierung (1D) hinausgehen und nun auch Bild- (2D) und Videogenerierung (3D) umfassen, stellt die Verarbeitung räumlicher und zeitlicher Informationen einzigartige Herausforderungen in Bezug auf Qualität, Leistung und Effizienz dar. Wir präsentieren die erste Arbeit, die sich mit dem Verständnis dieses neuen Systemdesignraums für multimodale Text-zu-Bild (TTI) und Text-zu-Video (TTV) Generierungsmodelle beschäftigt. Aktuelle Modellarchitekturen lassen sich in zwei Kategorien einteilen: Diffusions- und Transformer-basierte Modelle. Unsere systematische Leistungscharakterisierung einer Reihe von acht repräsentativen TTI/TTV-Modellen zeigt, dass nach der Anwendung modernster Optimierungstechniken wie Flash Attention die Faltung bis zu 44 % der Ausführungszeit für Diffusions-basierte TTI-Modelle ausmacht, während lineare Schichten bis zu 49 % der Ausführungszeit für Transformer-basierte Modelle verbrauchen. Zusätzlich beobachten wir, dass Diffusions-basierte TTI-Modelle der Prefill-Phase der LLM-Inferenz ähneln und von einem 1,1- bis 2,5-fachen größeren Geschwindigkeitsvorteil durch Flash Attention profitieren als Transformer-basierte TTI-Modelle, die der Decode-Phase ähneln. Da Optimierungen, die für LLMs entwickelt wurden, nicht direkt auf TTI/TTV-Modelle übertragbar sind, müssen wir eine gründliche Charakterisierung dieser Workloads durchführen, um Einblicke in neue Optimierungsmöglichkeiten zu gewinnen. Dabei definieren wir die Sequenzlänge im Kontext von TTI/TTV-Modellen und beobachten, dass die Sequenzlänge bei der Inferenz von Diffusionsmodellen um bis zu das 4-fache variieren kann. Zusätzlich stellen wir fest, dass zeitliche Aspekte von TTV-Workloads einzigartige Systemengpässe darstellen, wobei die zeitliche Aufmerksamkeit über 60 % der gesamten Aufmerksamkeitszeit ausmacht. Insgesamt ist unsere detaillierte Systemleistungscharakterisierung ein entscheidender erster Schritt zur Entwicklung effizienter und einsatzfähiger Systeme für aufkommende TTI/TTV-Workloads.
Die physikalischen Eigenschaften eines Objekts, wie beispielsweise die Masse, beeinflussen maßgeblich, wie wir es mit unseren Händen manipulieren. Überraschenderweise wurde dieser Aspekt in bisherigen Arbeiten zur 3D-Bewegungssynthese vernachlässigt. Um die Natürlichkeit der synthetisierten 3D-Hand-Objekt-Bewegungen zu verbessern, schlägt diese Arbeit MACS vor, den ersten MAss-Conditioned 3D-Hand- und Objekt-Bewegungssynthese-Ansatz. Unser Ansatz basiert auf kaskadierten Diffusionsmodellen und erzeugt Interaktionen, die plausibel an die Objektmasse und den Interaktionstyp angepasst sind. MACS akzeptiert auch eine manuell gezeichnete 3D-Objekt-Trajektorie als Eingabe und synthetisiert die natürlichen 3D-Handbewegungen, die durch die Objektmasse bedingt sind. Diese Flexibilität ermöglicht es MACS, für verschiedene nachgelagerte Anwendungen eingesetzt zu werden, wie z.B. die Erzeugung synthetischer Trainingsdaten für ML-Aufgaben, die schnelle Animation von Händen für Grafik-Workflows und die Erzeugung von Charakterinteraktionen für Computerspiele. Wir zeigen experimentell, dass ein kleines Datenset ausreicht, damit MACS vernünftig über interpolierte und extrapolierte Objektmassen, die während des Trainings nicht gesehen wurden, generalisieren kann. Darüber hinaus zeigt MACS eine moderate Generalisierung auf unbekannte Objekte, dank der massenbedingten Kontaktlabels, die von unserem Oberflächenkontaktsynthese-Modell ConNet erzeugt werden. Unsere umfassende Benutzerstudie bestätigt, dass die synthetisierten 3D-Hand-Objekt-Interaktionen sehr plausibel und realistisch sind.
Dieses Papier stellt „Shai“ vor, ein großes Sprachmodell mit 10 Milliarden Parametern, das speziell für die Vermögensverwaltungsbranche entwickelt wurde und auf einem Open-Source-Basismodell aufbaut. Durch kontinuierliches Vorabtraining und Feinabstimmung mithilfe eines gezielten Korpus zeigt Shai eine verbesserte Leistung bei aufgabenbezogenen Anwendungen in seinem Fachgebiet und übertrifft dabei Baseline-Modelle. Unsere Forschung umfasst die Entwicklung eines innovativen Bewertungsrahmens, der Berufsqualifikationsprüfungen, maßgeschneiderte Aufgaben, offene Frage-Antwort-Szenarien und Sicherheitsbewertungen integriert, um die Fähigkeiten von Shai umfassend zu bewerten. Darüber hinaus diskutieren wir die Herausforderungen und Implikationen der Nutzung großer Sprachmodelle wie GPT-4 zur Leistungsbewertung in der Vermögensverwaltung und schlagen eine Kombination aus automatischer Bewertung und menschlicher Beurteilung vor. Die Entwicklung von Shai, die das Potenzial und die Vielseitigkeit von 10-Milliarden-Parameter-Sprachmodellen im Finanzsektor bei signifikanter Leistung und moderaten Rechenanforderungen demonstriert, soll praktische Einblicke und Methoden liefern, um Branchenkollegen bei ähnlichen Vorhaben zu unterstützen.
Kürzlich haben Forscher versucht, die Fähigkeit von LLMs (Large Language Models) im Umgang mit Videos zu untersuchen und mehrere Video-LLM-Modelle vorgeschlagen. Die Fähigkeit von LLMs, Video Grounding (VG) zu bewältigen – eine wichtige zeitbezogene Videoaufgabe, bei der das Modell die Start- und Endzeitpunkte von temporalen Momenten in Videos, die mit gegebenen textuellen Anfragen übereinstimmen, präzise lokalisieren muss – bleibt jedoch in der Literatur unklar und unerforscht. Um diese Lücke zu schließen, schlagen wir in diesem Artikel den LLM4VG-Benchmark vor, der die Leistung verschiedener LLMs bei Video-Grounding-Aufgaben systematisch evaluiert. Basierend auf unserem vorgeschlagenen LLM4VG entwerfen wir umfangreiche Experimente, um zwei Gruppen von Video-LLM-Modellen für Video Grounding zu untersuchen: (i) die auf Text-Video-Paaren trainierten Video-LLMs (bezeichnet als VidLLM) und (ii) die LLMs, die mit vortrainierten visuellen Beschreibungsmodellen wie Video-/Bildbeschreibungsmodellen kombiniert werden. Wir schlagen Prompt-Methoden vor, um die Anweisung für VG und die Beschreibung verschiedener Arten von Generatoren zu integrieren, einschließlich caption-basierter Generatoren für direkte visuelle Beschreibungen und VQA-basierter Generatoren zur Informationsverbesserung. Wir bieten auch umfassende Vergleiche verschiedener VidLLMs und untersuchen den Einfluss unterschiedlicher Wahlmöglichkeiten von visuellen Modellen, LLMs, Prompt-Designs usw. Unsere experimentellen Auswertungen führen zu zwei Schlussfolgerungen: (i) Die bestehenden VidLLMs sind noch weit davon entfernt, zufriedenstellende Video-Grounding-Leistungen zu erzielen, und es sollten mehr zeitbezogene Videoaufgaben einbezogen werden, um diese Modelle weiter zu feinabzustimmen, und (ii) die Kombination von LLMs und visuellen Modellen zeigt erste Fähigkeiten für Video Grounding mit beträchtlichem Verbesserungspotenzial durch die Nutzung zuverlässigerer Modelle und weiterer Anleitungen durch Prompt-Instruktionen.