Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große neuronale Netzwerke verbringen den Großteil der Berechnungen mit Gleitkomma-Tensor-Multiplikationen. In dieser Arbeit stellen wir fest, dass ein Gleitkomma-Multiplizierer mit hoher Genauigkeit durch einen ganzzahligen Addierer approximiert werden kann. Wir schlagen den linearen Komplexitäts-Multiplikations-L-Mul-Algorithmus vor, der die Multiplikation von Gleitkommazahlen durch Ganzzahloperationen approximiert. Der neue Algorithmus benötigt signifikant weniger Rechenressourcen als die 8-Bit-Gleitkomma-Multiplikation, erreicht jedoch eine höhere Genauigkeit. Im Vergleich zu 8-Bit-Gleitkomma-Multiplikationen erzielt die vorgeschlagene Methode eine höhere Genauigkeit, verbraucht jedoch wesentlich weniger Bit-Ebene-Berechnungen. Da die Multiplikation von Gleitkommazahlen im Vergleich zu Ganzzahloperationen wesentlich mehr Energie erfordert, kann die Anwendung der L-Mul-Operation in Hardware zur Tensorverarbeitung potenziell die Energiekosten um 95 % bei elementweisen Gleitkomma-Tensor-Multiplikationen und um 80 % bei Skalarprodukten reduzieren. Wir haben die theoretische Fehlererwartung von L-Mul berechnet und den Algorithmus anhand einer Vielzahl von textuellen, visuellen und symbolischen Aufgaben evaluiert, einschließlich des Verständnisses natürlicher Sprache, struktureller Schlussfolgerungen, Mathematik und allgemeiner Fragebeantwortung. Unsere numerischen Analyseexperimente stimmen mit der theoretischen Fehlerabschätzung überein, was darauf hindeutet, dass L-Mul mit 4-Bit-Mantisse eine vergleichbare Genauigkeit wie float8_e4m3-Multiplikationen erreicht, und L-Mul mit 3-Bit-Mantisse float8_e5m2 übertrifft. Die Evaluierungsergebnisse auf gängigen Benchmarks zeigen, dass die direkte Anwendung von L-Mul auf den Aufmerksamkeitsmechanismus nahezu verlustfrei ist. Wir zeigen weiterhin, dass der Ersatz aller Gleitkomma-Multiplikationen durch L-Mul mit 3-Bit-Mantisse in einem Transformer-Modell eine äquivalente Genauigkeit wie die Verwendung von float8_e4m3 als Akkumulationsgenauigkeit sowohl beim Feintuning als auch bei der Inferenz erreicht.
In jüngster Zeit haben Fortschritte sowohl im Bereich des Repräsentationslernens als auch des Funktionslernens erhebliches Potenzial in verschiedenen Bereichen der künstlichen Intelligenz gezeigt. Die effektive Integration dieser Paradigmen stellt jedoch eine bedeutende Herausforderung dar, insbesondere in Fällen, in denen Benutzer manuell entscheiden müssen, ob ein Repräsentationslern- oder Funktionslernmodell basierend auf den Merkmalen des Datensatzes angewendet werden soll. Um dieses Problem anzugehen, stellen wir MLP-KAN vor, eine vereinheitlichte Methode, die darauf abzielt, die manuelle Modellauswahl überflüssig zu machen. Durch die Integration von Mehrschicht-Perzeptronen (MLPs) für das Repräsentationslernen und Kolmogorov-Arnold-Netzwerken (KANs) für das Funktionslernen innerhalb einer Mischung-von-Experten (MoE)-Architektur passt sich MLP-KAN dynamisch an die spezifischen Merkmale der jeweiligen Aufgabe an und gewährleistet optimale Leistung. Eingebettet in ein auf Transformer basierendes Framework erzielt unsere Arbeit bemerkenswerte Ergebnisse auf vier weit verbreiteten Datensätzen in verschiedenen Bereichen. Eine umfangreiche experimentelle Bewertung zeigt die überragende Vielseitigkeit auf und liefert eine konkurrenzfähige Leistung in Aufgaben des tiefen Repräsentations- und Funktionslernens. Diese Ergebnisse unterstreichen das Potenzial von MLP-KAN, den Modellauswahlprozess zu vereinfachen und eine umfassende, anpassungsfähige Lösung in verschiedenen Bereichen anzubieten. Unser Code und Gewichte sind verfügbar unter https://github.com/DLYuanGod/MLP-KAN.
Generative KI, insbesondere Sprachmodelle (LMs), haben das Potenzial, reale Bereiche mit gesellschaftlicher Wirkung zu transformieren, insbesondere dort, wo der Zugang zu Experten begrenzt ist. Zum Beispiel ist es in der Bildung wichtig, angehende Pädagogen mit Expertenrat auszubilden, um effektiv zu sein, aber dies ist teuer und schafft erhebliche Hindernisse für die Verbesserung der Bildungsqualität im großen Maßstab. Diese Herausforderung schadet insbesondere Schülern aus unterversorgten Gemeinschaften, die am meisten von hochwertiger Bildung profitieren könnten. Wir stellen Tutor CoPilot vor, einen neuartigen menschlichen KI-Ansatz, der ein Modell des Expertendenkens nutzt, um Tutoren während des Unterrichtens expertenähnliche Anleitung zu bieten. Diese Studie ist der erste randomisierte kontrollierte Versuch eines Mensch-KI-Systems im Live-Unterricht und umfasst 900 Tutoren und 1.800 Schüler der Klassen K-12 aus historisch unterversorgten Gemeinschaften. Gemäß einem vorregistrierten Analyseplan stellen wir fest, dass Schüler, die mit Tutoren arbeiten, die Zugang zu Tutor CoPilot haben, um 4 Prozentpunkte wahrscheinlicher sind, Themen zu beherrschen (p<0,01). Bemerkenswerterweise profitierten Schüler von schlechter bewerteten Tutoren am meisten und verbesserten ihre Beherrschung um 9 Prozentpunkte. Wir stellen fest, dass Tutor CoPilot nur 20 US-Dollar pro Tutor und Jahr kostet. Wir analysieren über 550.000 Nachrichten mit Klassifikatoren, um pädagogische Strategien zu identifizieren, und stellen fest, dass Tutoren mit Zugang zu Tutor CoPilot eher hochwertige Strategien zur Förderung des Schülerverständnisses (z. B. das Stellen von leitenden Fragen) verwenden und weniger wahrscheinlich die Antwort an den Schüler verraten. Tutor-Interviews verdeutlichen, wie die Anleitung von Tutor CoPilot Tutoren hilft, auf die Bedürfnisse der Schüler einzugehen, obwohl sie Probleme in Tutor CoPilot aufzeigen, wie beispielsweise das Generieren von Vorschlägen, die nicht dem Klassenstufeniveau entsprechen. Insgesamt zeigt unsere Studie zu Tutor CoPilot, wie Mensch-KI-Systeme Expertise in realen Bereichen skalieren können, Lücken in Fähigkeiten überbrücken und eine Zukunft schaffen können, in der hochwertige Bildung für alle Schüler zugänglich ist.
Unnötige Elemente im Kontext der Aufmerksamkeit beeinträchtigen die Leistung. Wir stellen die Selektive Aufmerksamkeit vor, eine einfache, parameterfreie Änderung am Standard-Aufmerksamkeitsmechanismus, die die Aufmerksamkeit auf unnötige Elemente reduziert. Die Selektive Aufmerksamkeit verbessert die Leistung des Sprachmodellierens bei verschiedenen Modellgrößen und Kontextlängen. Zum Beispiel zeigen eine Reihe von Transformern, die mit dem Ziel des Sprachmodellierens auf C4 trainiert wurden und selektive Aufmerksamkeit verwenden, eine äquivalente Leistung im Vergleich zu Standard-Transformern mit etwa doppelt so vielen Köpfen und Parametern in ihren Aufmerksamkeitsmodulen. Die Selektive Aufmerksamkeit ermöglicht auch die Verringerung der Größe des Puffers im Aufmerksamkeitskontext, was zu bedeutenden Reduzierungen der Speicher- und Rechenanforderungen während der Inferenz führt. Beispielsweise benötigen Transformer mit 100 Millionen Parametern, die auf C4 mit Kontextgrößen von 512, 1.024 und 2.048 trainiert wurden, mit selektiver Aufmerksamkeit 16-fach, 25-fach bzw. 47-fach weniger Speicher für ihr Aufmerksamkeitsmodul im Vergleich zu denen ohne selektive Aufmerksamkeit, bei gleicher Validierungsperplexität.
Wird uns ein auf einem visuellen Sprachmodell (VLM) basierender Bot warnen, wenn er einen nassen Boden erkennt? Aktuelle VLMs haben beeindruckende Fähigkeiten gezeigt, jedoch bleibt ihre Fähigkeit, Ergebnisse und Ursachen zu erschließen, weitgehend unerforscht. Um dies zu adressieren, stellen wir NL-Eye vor, einen Benchmark, der entwickelt wurde, um die visuellen abduktiven Denkfähigkeiten von VLMs zu bewerten. NL-Eye passt die abduktive Natural Language Inference (NLI)-Aufgabe auf den visuellen Bereich an, wodurch Modelle die Plausibilität von Hypothesenbildern basierend auf einem Prämissenbild bewerten und ihre Entscheidungen erklären müssen. NL-Eye besteht aus 350 sorgfältig kuratierten Tripelbeispielen (1.050 Bilder), die verschiedene Denkkategorien abdecken: physisch, funktional, logisch, emotional, kulturell und sozial. Der Datenkurationsprozess umfasste zwei Schritte - das Verfassen von textuellen Beschreibungen und das Generieren von Bildern mithilfe von Text-zu-Bild-Modellen, wobei beide Schritte erheblichen menschlichen Einsatz erforderten, um qualitativ hochwertige und anspruchsvolle Szenen sicherzustellen. Unsere Experimente zeigen, dass VLMs auf NL-Eye erhebliche Schwierigkeiten haben, oft auf zufälligem Baseliniveau agieren, während Menschen sowohl bei der Plausibilitätsvorhersage als auch bei der Erklärungsqualität herausragende Leistungen erbringen. Dies zeigt eine Defizienz in den abduktiven Denkfähigkeiten moderner VLMs auf. NL-Eye stellt einen entscheidenden Schritt zur Entwicklung von VLMs dar, die zu robustem multimodalem Denken für Anwendungen in der realen Welt fähig sind, einschließlich Unfallverhütungs-Bots und generierter Videoverifikation.
Mamba, ein spezieller Fall des Zustandsraummodells, gewinnt als Alternative zu Vorlagen-basierten Deep-Learning-Ansätzen in der medizinischen Bildanalyse an Popularität. Während Transformer leistungsstarke Architekturen sind, haben sie Nachteile, einschließlich quadratischer Rechenkomplexität und der Unfähigkeit, langreichweitige Abhängigkeiten effizient zu behandeln. Diese Einschränkung beeinflusst die Analyse großer und komplexer Datensätze in der medizinischen Bildgebung, wo viele räumliche und zeitliche Beziehungen vorhanden sind. Im Gegensatz dazu bietet Mamba Vorteile, die es für die medizinische Bildanalyse gut geeignet machen. Es hat eine lineare Zeitkomplexität, was eine signifikante Verbesserung gegenüber Transformern darstellt. Mamba verarbeitet längere Sequenzen ohne Aufmerksamkeitsmechanismen, was schnellere Inferenz ermöglicht und weniger Speicher erfordert. Mamba zeigt auch starke Leistungen bei der Fusion von multimodalen Daten, was die Diagnosegenauigkeit und die Patientenergebnisse verbessert. Die Struktur dieses Papiers ermöglicht es den Lesern, die Fähigkeiten von Mamba in der medizinischen Bildgebung Schritt für Schritt zu würdigen. Wir beginnen mit der Definition der Kernkonzepte von Zustandsraummodellen und Modellen, einschließlich S4, S5 und S6, gefolgt von einer Erkundung von Mamba-Architekturen wie reinem Mamba, U-Net-Varianten und Hybridmodellen mit faltenden neuronalen Netzen, Transformern und Graph-Neuronalen Netzen. Wir behandeln auch Mamba-Optimierungen, Techniken und Anpassungen, Scannen, Datensätze, Anwendungen, experimentelle Ergebnisse und schließen mit seinen Herausforderungen und zukünftigen Richtungen in der medizinischen Bildgebung ab. Diese Überprüfung zielt darauf ab, das transformative Potenzial von Mamba bei der Überwindung bestehender Barrieren in der medizinischen Bildgebung zu demonstrieren und den Weg für innovative Fortschritte in diesem Bereich zu ebnen. Eine umfassende Liste von Mamba-Architekturen, die in der medizinischen Praxis angewendet und in dieser Arbeit überprüft wurden, ist auf Github verfügbar.
Die aktuellen großen autoregressiven Modelle können hochwertige, hochauflösende Bilder generieren, erfordern jedoch Hunderte oder sogar Tausende von Schritten zur Vorhersage des nächsten Tokens während der Inferenz, was zu erheblichem Zeitverbrauch führt. In bestehenden Studien wurde die Jacobi-Dekodierung, ein iterativer paralleler Dekodierungsalgorithmus, verwendet, um die autoregressive Generierung zu beschleunigen und kann ohne Training ausgeführt werden. Die Jacobi-Dekodierung basiert jedoch auf einem deterministischen Kriterium zur Bestimmung der Konvergenz der Iterationen. Daher funktioniert sie für die gierige Dekodierung, ist aber nicht kompatibel mit der auf Stichproben basierenden Dekodierung, die für die visuelle Qualität und Vielfalt in der aktuellen autoregressiven Text-zu-Bild-Generierung entscheidend ist. In diesem Paper schlagen wir einen trainingsfreien probabilistischen parallelen Dekodierungsalgorithmus, das Spekulative Jacobi-Dekodierung (SJD), vor, um die autoregressive Text-zu-Bild-Generierung zu beschleunigen. Durch die Einführung eines probabilistischen Konvergenzkriteriums beschleunigt unser SJD die Inferenz der autoregressiven Text-zu-Bild-Generierung, während die Zufälligkeit bei der auf Stichproben basierenden Token-Dekodierung beibehalten wird und es dem Modell ermöglicht, verschiedene Bilder zu generieren. Speziell ermöglicht SJD dem Modell, mehrere Tokens in jedem Schritt vorherzusagen und Tokens basierend auf dem probabilistischen Kriterium zu akzeptieren, was dem Modell ermöglicht, Bilder mit weniger Schritten als im herkömmlichen Paradigma der nächsten-Token-Vorhersage zu generieren. Wir untersuchen auch die Token-Initialisierungsstrategien, die die räumliche Lokalität von visuellen Daten nutzen, um das Beschleunigungsverhältnis unter bestimmten Szenarien weiter zu verbessern. Wir führen Experimente für unser vorgeschlagenes SJD an mehreren autoregressiven Text-zu-Bild-Generierungsmodellen durch und zeigen die Wirksamkeit der Modellbeschleunigung, ohne die visuelle Qualität zu beeinträchtigen.
Die Generierung von Textur-aus-Text Methoden hat in letzter Zeit zunehmend an Aufmerksamkeit gewonnen, jedoch leiden bestehende Verfahren oft unter Problemen wie Ansichtsinkonsistenzen, offensichtlichen Nähten und Missabstimmungen zwischen Texturen und dem zugrunde liegenden Mesh. In diesem Artikel schlagen wir eine robuste Textur-aus-Text Methode vor, um konsistente und nahtlose Texturen zu generieren, die gut mit dem Mesh ausgerichtet sind. Unsere Methode nutzt modernste 2D-Diffusionsmodelle, einschließlich SDXL und mehrerer ControlNets, um strukturelle Merkmale und komplexe Details in den generierten Texturen zu erfassen. Die Methode verwendet auch eine symmetrische Ansichtssynthese-Strategie in Kombination mit regionalen Hinweisen zur Verbesserung der Ansichtskonsistenz. Darüber hinaus führt sie neuartige Textur-Blendungs- und Soft-Inpainting-Techniken ein, die die Nähtebereiche signifikant reduzieren. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art Methoden übertrifft.
Das Konzept des Konzeptlöschens in Sprachmodellen hat traditionell an einem umfassenden Bewertungsrahmen gefehlt, was zu unvollständigen Bewertungen der Wirksamkeit von Löschmethoden geführt hat. Wir schlagen ein Bewertungsparadigma vor, das auf drei entscheidenden Kriterien basiert: Unschuld (vollständige Wissensentfernung), Nahtlosigkeit (Aufrechterhaltung bedingter flüssiger Generierung) und Spezifität (Erhaltung der Leistung bei nicht verwandten Aufgaben). Unsere Bewertungsmetriken fördern natürlich die Entwicklung von "Erasure of Language Memory" (ELM), einer neuen Methode, die darauf abzielt, alle drei Dimensionen zu berücksichtigen. ELM verwendet gezielte Low-Rank-Updates, um die Ausgabeverteilungen für gelöschte Konzepte zu ändern, während die Gesamtfähigkeiten des Modells einschließlich Flüssigkeit bei der Aufforderung eines gelöschten Konzepts erhalten bleiben. Wir zeigen die Wirksamkeit von ELM bei Löschungsaufgaben in den Bereichen Biosecurity, Cybersecurity und Literatur. Der Vergleich zeigt, dass ELM eine überlegene Leistung bei unseren vorgeschlagenen Metriken erzielt, einschließlich nahezu zufälliger Bewertungen bei gelöschten Themen, Generierungsflüssigkeit, beibehaltener Genauigkeit bei nicht verwandten Benchmarks und Robustheit gegenüber Angriffen. Unser Code, Daten und trainierte Modelle sind verfügbar unter https://elm.baulab.info
In den jüngsten Fortschritten bei Code Large Language Models (CodeLLMs) lag der Schwerpunkt überwiegend auf offenen Codegenerierungsaufgaben, wobei oft der entscheidende Aspekt des Codeverständnisses und der Codekomprehension vernachlässigt wurde. Um diese Lücke zu schließen, präsentieren wir CodeMMLU, einen umfassenden Multiple-Choice-Fragen-Antworten-Benchmark, der darauf abzielt, die Tiefe des Software- und Codeverständnisses in LLMs zu bewerten. CodeMMLU umfasst über 10.000 Fragen aus verschiedenen Bereichen, die Aufgaben wie Codeanalyse, Fehlererkennung und Softwaretechnikprinzipien in verschiedenen Programmiersprachen umfassen. Im Gegensatz zu traditionellen Benchmarks bewertet CodeMMLU die Fähigkeit von Modellen, über Code zu argumentieren, anstatt ihn lediglich zu generieren, und liefert tiefere Einblicke in ihr Verständnis komplexer Softwarekonzepte und -systeme. Unsere umfangreiche Evaluation zeigt, dass selbst modernste Modelle erhebliche Herausforderungen mit CodeMMLU haben, was auf Defizite im Verständnis über die reine Codegenerierung hinaus hinweist. Indem die entscheidende Beziehung zwischen Codeverständnis und effektiver Generierung hervorgehoben wird, dient CodeMMLU als wichtige Ressource zur Förderung der KI-unterstützten Softwareentwicklung und zielt letztendlich darauf ab, zuverlässigere und leistungsfähigere Kodierassistenten zu schaffen.
Die Navigation von Robotern in der realen Welt umfasst mehr als nur das Erreichen eines Ziels; es erfordert die Optimierung von Bewegungen unter Berücksichtigung szenariospezifischer Ziele. Eine intuitive Möglichkeit für Menschen, diese Ziele auszudrücken, erfolgt durch abstrakte Hinweise wie verbale Befehle oder grobe Skizzen. Eine solche menschliche Anleitung kann Details vermissen lassen oder rauschig sein. Dennoch erwarten wir, dass Roboter wie beabsichtigt navigieren. Damit Roboter diese abstrakten Anweisungen im Einklang mit menschlichen Erwartungen interpretieren und ausführen können, müssen sie ein gemeinsames Verständnis grundlegender Navigationskonzepte mit Menschen teilen. Zu diesem Zweck stellen wir CANVAS vor, ein neuartiges Framework, das visuelle und sprachliche Anweisungen für navigationsbewusstes Handeln kombiniert. Sein Erfolg wird durch Imitationslernen vorangetrieben, das es dem Roboter ermöglicht, aus dem Navigationsverhalten von Menschen zu lernen. Wir präsentieren COMMAND, einen umfassenden Datensatz mit von Menschen annotierten Navigationsergebnissen, der sich über 48 Stunden und 219 km erstreckt und darauf abzielt, navigationsbewusste Systeme in simulierten Umgebungen zu trainieren. Unsere Experimente zeigen, dass CANVAS das leistungsstarke regelbasierte System ROS NavStack in allen Umgebungen übertrifft und eine überlegene Leistung bei rauschigen Anweisungen zeigt. Bemerkenswert ist, dass CANVAS in der Obstgarten-Umgebung, in der ROS NavStack eine Gesamterfolgsquote von 0% aufweist, eine Gesamterfolgsquote von 67% erreicht. CANVAS stimmt auch eng mit menschlichen Demonstrationen und alltäglichen Einschränkungen überein, selbst in unbekannten Umgebungen. Darüber hinaus zeigt die Realweltbereitstellung von CANVAS eine beeindruckende Sim2Real-Übertragung mit einer Gesamterfolgsquote von 69%, was das Potenzial des Lernens aus menschlichen Demonstrationen in simulierten Umgebungen für realweltliche Anwendungen unterstreicht.
Das Ausfüllen der Lücke (Fill-in-the-Middle, FIM) ist integraler Bestandteil von Code-Sprachmodellen, da es die Generierung fehlenden Codes ermöglicht, basierend auf sowohl dem linken als auch dem rechten Kontext. Allerdings führt das aktuelle FIM-Trainingsparadigma, das die ursprünglichen Trainingssequenzen neu anordnet und dann reguläre Vorhersagen des nächsten Tokens (Next-Token Prediction, NTP) durchführt, oft dazu, dass Modelle Schwierigkeiten haben, Inhalte zu generieren, die nahtlos zum umgebenden Kontext passen. Entscheidend ist, dass bestehende Arbeiten auf regelbasierte Nachbearbeitung angewiesen sind, um diese Schwäche zu umgehen. Solche Methoden sind jedoch in offenen Code-Vervollständigungsaufgaben nicht praktikabel, da sie auf restriktiven, datensatzspezifischen Annahmen beruhen (z. B. Generierung derselben Anzahl von Zeilen wie im Ground Truth). Darüber hinaus verschlechtert sich die Leistung der Modelle bei FIM-Aufgaben signifikant ohne diese unrealistischen Annahmen. Wir vermuten, dass NTP allein nicht ausreicht, damit Modelle effektive Planung basierend auf dem entfernten rechten Kontext erlernen, was ein entscheidender Faktor für erfolgreiches Code-Ausfüllen ist. Um dies zu überwinden, schlagen wir Horizon-Length Prediction (HLP) vor, ein neuartiges Trainingsziel, das den Modellen beibringt, die Anzahl der verbleibenden mittleren Tokens (d. h. die Horizontlänge) in jedem Schritt vorherzusagen. HLP verbessert FIM durch vorausschauende Planung und ermöglicht es den Modellen, Füllgrenzen für beliebige linke und rechte Kontexte inhärent zu erlernen, ohne auf datensatzspezifische Nachbearbeitung angewiesen zu sein. Unsere Evaluation über verschiedene Modelle und Größen hinweg zeigt, dass HLP die Leistung von FIM signifikant um bis zu 24 % relativ auf verschiedenen Benchmarks verbessert, sowohl auf Dateiebene als auch auf Repository-Ebene, und ohne auf unrealistische Nachbearbeitungsmethoden zurückzugreifen. Darüber hinaus verbessert die erweiterte Planungsfähigkeit, die durch HLP erlangt wird, die Leistung der Modelle bei der Code-Argumentation. Wichtig ist, dass HLP nur einen vernachlässigbaren Schulungsaufwand und keine zusätzlichen Inferenzkosten verursacht, was seine Praktikabilität für Szenarien in der realen Welt sicherstellt.
Die Vorhersage des Aktienmarktes ist seit vielen Jahrzehnten ein äußerst herausforderndes Problem aufgrund seiner inhärenten hohen Volatilität und des niedrigen Informationsrauschverhältnisses. Bestehende Lösungen, die auf maschinellem Lernen oder Deep Learning basieren, zeigen eine überlegene Leistung, indem sie ein einzelnes Modell verwenden, das auf dem gesamten Aktiendatensatz trainiert ist, um Vorhersagen für alle Arten von Aktien zu generieren. Aufgrund der erheblichen Unterschiede in Aktienstilen und Markttrends hat ein einzelnes End-to-End-Modell Schwierigkeiten, die Unterschiede in diesen stilisierten Aktienmerkmalen vollständig zu erfassen, was zu relativ ungenauen Vorhersagen für alle Arten von Aktien führt. In diesem Papier präsentieren wir MIGA, ein neuartiges Rahmenwerk für eine Mischung von Experten mit Gruppenaggregation, das entwickelt wurde, um spezialisierte Vorhersagen für Aktien mit unterschiedlichen Stilen zu generieren, indem es dynamisch zwischen verschiedenen Stilexperten wechselt. Um die Zusammenarbeit zwischen verschiedenen Experten in MIGA zu fördern, schlagen wir eine neuartige Architektur für innere Gruppenaufmerksamkeit vor, die Experten innerhalb derselben Gruppe ermöglicht, Informationen zu teilen und damit die Gesamtleistung aller Experten zu verbessern. Als Ergebnis übertrifft MIGA signifikant andere End-to-End-Modelle auf drei chinesischen Aktienindex-Benchmarks, einschließlich CSI300, CSI500 und CSI1000. Bemerkenswerterweise erreicht MIGA-Conv eine um 24 % höhere jährliche Rendite auf dem CSI300-Index und übertrifft das bisherige Spitzenmodell um 8 % absolut. Darüber hinaus führen wir eine umfassende Analyse der Mischung von Experten für die Aktienmarktprognose durch und liefern wertvolle Einblicke für zukünftige Forschung.
Trotz des Aufstiegs von Deep Learning in unstrukturierten Datenbereichen sind baumbasierte Methoden wie Random Forests (RF) und Gradient Boosted Decision Trees (GBDT) immer noch die Arbeitstiere für die Bewältigung diskriminativer Aufgaben in tabellarischen Daten. Wir untersuchen generative Erweiterungen dieser beliebten Algorithmen mit dem Schwerpunkt auf der expliziten Modellierung der Datenverteilung (bis auf eine Normalisierungskonstante), was andere Anwendungen neben der Stichprobenahme ermöglicht. Als unser Hauptbeitrag schlagen wir einen energiebasierten generativen Boosting-Algorithmus vor, der analog zum Boosting zweiter Ordnung ist, wie es in beliebten Paketen wie XGBoost implementiert ist. Wir zeigen, dass unser vorgeschlagener Algorithmus trotz der Erzeugung eines generativen Modells, das in der Lage ist, Inferenzaufgaben über jede Eingangsvariable zu bewältigen, eine ähnliche diskriminative Leistung wie GBDT auf einer Reihe von realen tabellarischen Datensätzen erzielen kann und alternative generative Ansätze übertrifft. Gleichzeitig zeigen wir, dass er auch im Vergleich zu modellbasierten neuronalen Netzwerken für die Stichprobenahme wettbewerbsfähig ist.
Die detaillierte Untertitelung von Videos ist eine Schlüsselaufgabe, die darauf abzielt, umfassende und kohärente textuelle Beschreibungen des Videoinhalts zu generieren, was sowohl dem Verständnis als auch der Erzeugung von Videos zugutekommt. In diesem Paper schlagen wir AuroraCap vor, einen Videounterstitzer, der auf einem großen multimodalen Modell basiert. Wir folgen dem einfachsten Architekturdesign ohne zusätzliche Parameter für das zeitliche Modellieren. Um mit dem Overhead durch lange Videosequenzen umzugehen, implementieren wir die Token-Verschmelzungsstrategie, um die Anzahl der visuellen Eingabetoken zu reduzieren. Überraschenderweise stellten wir fest, dass diese Strategie zu nur geringen Leistungseinbußen führt. AuroraCap zeigt eine überlegene Leistung auf verschiedenen Video- und Bildunterschrift-Benchmarks, beispielsweise erreicht es einen CIDEr von 88,9 auf Flickr30k, und übertrifft damit GPT-4V (55,3) und Gemini-1.5 Pro (82,2). Allerdings enthalten bestehende Videountertitel-Benchmarks nur einfache Beschreibungen, die aus einigen Dutzend Wörtern bestehen, was die Forschung in diesem Bereich einschränkt. Daher haben wir VDC entwickelt, einen Benchmark für detaillierte Videountertitelung mit über eintausend sorgfältig annotierten strukturierten Untertiteln. Darüber hinaus schlagen wir eine neue LLM-unterstützte Metrik, den VDCscore, zur Verbesserung der Bewertung vor, der eine Teile-und-Herrsche-Strategie übernimmt, um die Bewertung langer Untertitel in mehrere kurze Frage-Antwort-Paare zu transformieren. Mit Hilfe des menschlichen Elo-Rankings zeigen unsere Experimente, dass dieser Benchmark besser mit den menschlichen Beurteilungen der Qualität der detaillierten Videountertitelung korreliert.
Die robotergestützte Simulation bleibt heute eine Herausforderung in Bezug auf die Skalierung aufgrund der menschlichen Anstrengungen, die erforderlich sind, um vielfältige Simulationstasks und Szenen zu erstellen. Auch simulierte Richtlinien stoßen auf Skalierbarkeitsprobleme, da viele Sim-zu-Real-Methoden sich auf eine einzige Aufgabe konzentrieren. Um diesen Herausforderungen zu begegnen, schlägt diese Arbeit GenSim2 vor, ein skalierbares Framework, das die Codierung von LLMs mit multimodalen und Begründungsfähigkeiten zur Erstellung komplexer und realistischer Simulationstasks nutzt, einschließlich langfristiger Aufgaben mit artikulierten Objekten. Um automatisch Demonstrationsdaten für diese Aufgaben im großen Maßstab zu generieren, schlagen wir Planungs- und RL-Löser vor, die innerhalb von Objektkategorien generalisieren. Die Pipeline kann Daten für bis zu 100 artikulierte Aufgaben mit 200 Objekten generieren und den erforderlichen menschlichen Aufwand reduzieren. Um solche Daten zu nutzen, schlagen wir eine effektive mehrfachbedingte Richtlinienarchitektur vor, die als propriozeptiver Punkt-Wolken-Transformer (PPT) bezeichnet wird, der aus den generierten Demonstrationen lernt und eine starke Sim-zu-Real-Übertragung ohne vorheriges Training zeigt. Durch die Kombination der vorgeschlagenen Pipeline und der Richtlinienarchitektur zeigen wir eine vielversprechende Nutzung von GenSim2, bei der die generierten Daten für die Null-Schuss-Übertragung oder das Mittraining mit real gesammelten Daten verwendet werden können, was die Leistung der Richtlinie um 20% im Vergleich zum ausschließlichen Training mit begrenzten realen Daten verbessert.