Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In den letzten Jahren haben Large Language Models (LLMs) bemerkenswerte Fähigkeiten in verschiedenen Aufgaben (z.B. Verständnis von langem Kontext) gezeigt, und viele Benchmarks wurden vorgeschlagen. Allerdings stellen wir fest, dass die Fähigkeiten zur Generierung von langen Texten nicht gut untersucht sind. Daher führen wir den Hierarchical Long Text Generation Benchmark (HelloBench) ein, einen umfassenden, in der Praxis verwendeten und offenen Benchmark zur Bewertung der Leistung von LLMs bei der Generierung von langen Texten. Basierend auf Blooms Taxonomie kategorisiert HelloBench langtextgenerierende Aufgaben in fünf Unteraufgaben: offene Fragen, Zusammenfassung, Chat, Textvervollständigung und heuristische Textgenerierung. Darüber hinaus schlagen wir die Hierarchical Long Text Evaluation (HelloEval) vor, eine auf den Menschen ausgerichtete Bewertungsmethode, die den Zeitaufwand für die menschliche Bewertung erheblich reduziert und gleichzeitig eine hohe Korrelation mit der menschlichen Bewertung aufrechterhält. Wir haben umfangreiche Experimente mit rund 30 führenden LLMs durchgeführt und festgestellt, dass die aktuellen LLMs über keine Fähigkeiten zur Generierung von langen Texten verfügen. Insbesondere beobachten wir erstens, dass unabhängig davon, ob die Anweisungen explizite oder implizite Längenbeschränkungen enthalten, die meisten LLMs keinen Text generieren können, der länger als 4000 Wörter ist. Zweitens stellen wir fest, dass während einige LLMs längeren Text generieren können, viele Probleme bestehen (z.B. starke Wiederholungen und Qualitätsverschlechterung). Drittens vergleichen wir zur Demonstration der Wirksamkeit von HelloEval HelloEval mit traditionellen Metriken (z.B. ROUGE, BLEU usw.) und LLM-als-Richter-Methoden, die zeigen, dass HelloEval die höchste Korrelation mit der menschlichen Bewertung aufweist. Wir veröffentlichen unseren Code unter https://github.com/Quehry/HelloBench.
Die Synthese von Charaktervideos zielt darauf ab, realistische Videos von animierbaren Charakteren in lebensechten Szenen zu erstellen. Als grundlegendes Problem in der Computer Vision und Grafik-Community erfordern 3D-Arbeiten typischerweise Multi-View-Aufnahmen für das Falltraining, was ihre Anwendbarkeit bei der Modellierung beliebiger Charaktere in kurzer Zeit stark einschränkt. Aktuelle 2D-Methoden überwinden diese Einschränkung mithilfe vorab trainierter Diffusionsmodelle, kämpfen jedoch mit Pose-Allgemeinheit und Szeneninteraktion. Zu diesem Zweck schlagen wir MIMO vor, ein neuartiges Framework, das nicht nur Charaktervideos mit steuerbaren Attributen (d.h. Charakter, Bewegung und Szene), die durch einfache Benutzereingaben bereitgestellt werden, synthetisieren kann, sondern auch gleichzeitig eine fortschrittliche Skalierbarkeit für beliebige Charaktere, Allgemeinheit für neue 3D-Bewegungen und Anwendbarkeit für interaktive Szenen in der realen Welt in einem einheitlichen Rahmen erreichen kann. Die Kernidee besteht darin, das 2D-Video in kompakte räumliche Codes zu codieren, unter Berücksichtigung der inhärenten 3D-Natur des Videoauftretens. Konkret heben wir die 2D-Bildpixel in 3D mithilfe monokularer Tiefenschätzer an und zerlegen den Videoclip in drei räumliche Komponenten (d.h. Hauptmensch, zugrunde liegende Szene und schwebende Okklusion) in hierarchischen Schichten basierend auf der 3D-Tiefe. Diese Komponenten werden weiter in kanonische Identitätscode, strukturierten Bewegungscode und vollständigen Szenencode codiert, die als Steuersignale des Syntheseprozesses verwendet werden. Das Design des räumlich zerlegten Modellierens ermöglicht eine flexible Benutzersteuerung, komplexe Bewegungsausdrücke sowie eine 3D-bewusste Synthese für Szeneninteraktionen. Experimentelle Ergebnisse zeigen die Wirksamkeit und Robustheit der vorgeschlagenen Methode.
Große Sprachmodelle (LLMs) mit ausschließlichem Decoder-Aufbau zeigen bemerkenswerte Fähigkeiten zum kontextbezogenen Lernen (ICL). Diese Eigenschaft ermöglicht es ihnen, sowohl vertraute als auch neue Aufgaben effektiv zu bewältigen, indem sie Beispiele nutzen, die innerhalb ihres Eingangskontexts bereitgestellt werden. In Anerkennung des Potenzials dieser Fähigkeit schlagen wir vor, das ICL-Merkmal in LLMs zu nutzen, um den Prozess der Texteinbettungsgenerierung zu verbessern. Zu diesem Zweck stellen wir ein neuartiges Modell bge-en-icl vor, das wenige Beispiele verwendet, um hochwertige Texteinbettungen zu erzeugen. Unser Ansatz integriert aufgabenbezogene Beispiele direkt auf der Abfrageseite, was zu signifikanten Verbesserungen bei verschiedenen Aufgaben führt. Darüber hinaus haben wir untersucht, wie man LLMs effektiv als Einbettungsmodelle nutzt, einschließlich verschiedener Aufmerksamkeitsmechanismen, Pooling-Methoden usw. Unsere Ergebnisse legen nahe, dass die Beibehaltung des ursprünglichen Rahmens oft die besten Ergebnisse liefert und betonen, dass Einfachheit am besten ist. Experimentelle Ergebnisse auf den MTEB- und AIR-Bench-Benchmarks zeigen, dass unser Ansatz eine neue State-of-the-Art-Leistung erzielt. Unser Modell, Code und Datensatz sind frei verfügbar unter https://github.com/FlagOpen/FlagEmbedding.
In jüngster Zeit haben Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) das Ziel verfolgt, Daten über verschiedene Modalitäten zu integrieren und zu interpretieren. Die Fähigkeit dieser Modelle, gleichzeitig mehrere Modalitäten zu verarbeiten und darüber zu argumentieren, bleibt jedoch unzureichend erforscht, teilweise aufgrund des Mangels an umfassenden Modalitäts-spezifischen Benchmarks. Wir stellen OmniBench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit von Modellen zu erkennen, zu interpretieren und über visuelle, akustische und textuelle Eingaben gleichzeitig zu argumentieren, rigoros zu bewerten. Wir definieren Modelle, die zu einer solchen tri-modalen Verarbeitung fähig sind, als Omni-Sprachmodelle (OLMs). OmniBench zeichnet sich durch hochwertige menschliche Annotationen aus, die sicherstellen, dass genaue Antworten ein integriertes Verständnis und Argumentieren über alle drei Modalitäten erfordern. Unsere Hauptergebnisse zeigen, dass: i) Open-Source OLMs kritische Einschränkungen bei der Befolgung von Anweisungen und Argumentationsfähigkeiten innerhalb tri-modaler Kontexte aufweisen; und ii) die Basismodelle schlecht abschneiden (unter 50% Genauigkeit), selbst wenn alternative textuelle Darstellungen von Bildern und Audio bereitgestellt werden. Diese Ergebnisse legen nahe, dass die Fähigkeit, einen konsistenten Kontext aus Text, Bild und Audio zu konstruieren, in bestehenden MLLM-Trainingsparadigmen oft übersehen wird. Wir plädieren dafür, dass zukünftige Forschung darauf abzielt, robustere tri-modale Integrations- und Trainingsstrategien zu entwickeln, um die Leistung von OLMs über verschiedene Modalitäten hinweg zu verbessern. Die Codes und die aktuelle Rangliste finden Sie unter https://m-a-p.ai/OmniBench.
Die Qualität von Open-Weight LLMs hat signifikante Verbesserungen erfahren, bleibt jedoch hauptsächlich auf Englisch fokussiert. In diesem Paper stellen wir das EuroLLM-Projekt vor, das darauf abzielt, eine Reihe von Open-Weight multilingualen LLMs zu entwickeln, die in der Lage sind, Texte in allen offiziellen Sprachen der Europäischen Union sowie in mehreren weiteren relevanten Sprachen zu verstehen und zu generieren. Wir skizzieren den bisherigen Fortschritt, indem wir unseren Datensammlungs- und Filterungsprozess, die Entwicklung von Skalierungsgesetzen, die Erstellung unseres multilingualen Tokenizers sowie die Datenvielfalt und Modellierungskonfigurationen darlegen. Darüber hinaus veröffentlichen wir unsere ersten Modelle: EuroLLM-1.7B und EuroLLM-1.7B-Instruct und berichten über ihre Leistung in multilingualen allgemeinen Benchmarks und maschinelle Übersetzung.
Die kontinuierliche Veröffentlichung neuer und besserer Bildgenerierungsmodelle erhöht die Nachfrage nach synthetischen Bilderkennungssystemen. In einem so dynamischen Bereich müssen die Detektoren in der Lage sein, weitreichend zu generalisieren und robust gegen unkontrollierte Veränderungen zu sein. Die vorliegende Arbeit wird von dieser Situation motiviert, wenn man die Rolle von Zeit, Bildtransformationen und Datenquellen für die Generalisierung von Detektoren betrachtet. In diesen Experimenten wurde festgestellt, dass keiner der bewerteten Detektoren universell ist, aber die Ergebnisse deuten darauf hin, dass ein Ensemble dies sein könnte. Experimente mit in freier Wildbahn gesammelten Daten zeigen, dass diese Aufgabe herausfordernder ist als die von groß angelegten Datensätzen definierte, was auf eine Kluft zwischen Experiment und tatsächlicher Praxis hinweist. Schließlich beobachten wir einen Gleichgewichtseffekt im Wettlauf, bei dem bessere Generatoren zu besseren Detektoren führen und umgekehrt. Wir vermuten, dass dies das Feld zu einem dauerhaften Wettlauf zwischen Generatoren und Detektoren treibt.
Die meisten bestehenden Multimodalitätsmethoden verwenden separate Backbones für die autoregressionsbasierte diskrete Textgenerierung und die diffusionsbasierte kontinuierliche visuelle Generierung oder denselben Backbone durch Diskretisierung der visuellen Daten zur Verwendung von Autoregression für sowohl Text- als auch visuelle Generierung. In diesem Paper schlagen wir vor, eine einfache Idee zu untersuchen: die gemeinsame Nutzung eines Transformers für sowohl Autoregression als auch Diffusion. Die Machbarkeit ergibt sich aus zwei Hauptaspekten: (i) Der Transformer wird erfolgreich auf Diffusion für die visuelle Generierung angewendet, und (ii) das Transformer-Training für Autoregression und Diffusion ist sehr ähnlich, wobei der einzige Unterschied darin besteht, dass Diffusion eine bidirektionale Aufmerksamkeitsmaske verwendet und Autoregression eine kausale Aufmerksamkeitsmaske verwendet. Experimentelle Ergebnisse zeigen, dass unser Ansatz eine vergleichbare Bildgenerierungsleistung wie aktuelle State-of-the-Art-Methoden erreicht und gleichzeitig die Textgenerierungsfähigkeit beibehält. Das Projekt ist öffentlich unter https://monoformer.github.io/ verfügbar.
Maskierte Transformer-Modelle für klassenbedingte Bildgenerierung sind zu einer überzeugenden Alternative zu Diffusionsmodellen geworden. Typischerweise bestehend aus zwei Phasen - einem anfänglichen VQGAN-Modell zur Transition zwischen dem latenten Raum und dem Bildraum und einem anschließenden Transformer-Modell zur Bildgenerierung im latenten Raum - bieten diese Rahmenwerke vielversprechende Ansätze für die Bildsynthese. In dieser Studie präsentieren wir zwei Hauptbeiträge: Erstens eine empirische und systematische Untersuchung von VQGANs, die zu einem modernisierten VQGAN führt. Zweitens ein neuartiges Embedding-freies Generierungsnetzwerk, das direkt auf Bit-Token - einer binären quantisierten Repräsentation von Tokens mit reicher Semantik - arbeitet. Der erste Beitrag liefert ein transparentes, reproduzierbares und leistungsstarkes VQGAN-Modell, das die Zugänglichkeit verbessert und die Leistung aktueller State-of-the-Art-Methoden erreicht, während zuvor unveröffentlichte Details offenbart werden. Der zweite Beitrag zeigt, dass die Embedding-freie Bildgenerierung unter Verwendung von Bit-Token einen neuen State-of-the-Art FID von 1,52 auf dem ImageNet 256x256 Benchmark erreicht, mit einem kompakten Generatormodell von nur 305 Millionen Parametern.
Das menschliche visuelle System ist gut darauf eingestellt, Gesichter aller Formen und Größen zu erkennen. Obwohl dies offensichtliche Überlebensvorteile mit sich bringt, wie eine bessere Chance, unbekannte Raubtiere im Gebüsch zu entdecken, führt es auch zu irrtümlichen Gesichtserkennungen. „Gesichtsparäidolie“ beschreibt die Wahrnehmung gesichtsähnlicher Strukturen unter ansonsten zufälligen Reizen: Gesichter in Kaffeeflecken oder Wolken am Himmel zu sehen. In diesem Artikel untersuchen wir Gesichtsparäidolie aus der Perspektive der Computer Vision. Wir präsentieren einen Bild Datensatz von „Gesichtern in Dingen“, bestehend aus fünftausend Web-Bildern mit menschlich annotierten pareidolischen Gesichtern. Unter Verwendung dieses Datensatzes untersuchen wir, inwieweit ein hochmoderner menschlicher Gesichtsdetektor Gesichtsparäidolie aufweist, und stellen eine signifikante Verhaltenslücke zwischen Menschen und Maschinen fest. Wir stellen fest, dass das evolutionäre Bedürfnis der Menschen, Tiergesichter sowie menschliche Gesichter zu erkennen, einen Teil dieser Lücke erklären kann. Schließlich schlagen wir ein einfaches statistisches Modell der Pareidolie in Bildern vor. Durch Studien an menschlichen Probanden und unseren pareidolischen Gesichtsdetektoren bestätigen wir eine Schlüsselvorhersage unseres Modells bezüglich der Bildbedingungen, die am ehesten Pareidolie hervorrufen. Datensatz und Website: https://aka.ms/faces-in-things
Das Deep Learning für die Vorhersage von Zeitreihen hat in den letzten Jahrzehnten signifikante Fortschritte verzeichnet. Trotz des Erfolgs des groß angelegten Pre-Trainings in den Bereichen Sprache und Vision sind vortrainierte Zeitreihenmodelle in Bezug auf Größe begrenzt und arbeiten mit hohen Kosten, was die Entwicklung größerer, leistungsfähigerer Vorhersagemodelle in realen Anwendungen behindert. Als Antwort darauf stellen wir Time-MoE vor, eine skalierbare und vereinheitlichte Architektur, die darauf ausgelegt ist, größere und leistungsfähigere Grundlagenmodelle für die Vorhersage vorzutrainieren und gleichzeitig die Inferenzkosten zu senken. Durch die Nutzung eines spärlichen Mixture-of-Experts (MoE)-Designs verbessert Time-MoE die Recheneffizienz, indem nur eine Teilmenge der Netzwerke für jede Vorhersage aktiviert wird, was die Rechenlast reduziert und gleichzeitig die hohe Modellkapazität beibehält. Dies ermöglicht es Time-MoE, effektiv zu skalieren, ohne dass die Inferenzkosten entsprechend steigen. Time-MoE besteht aus einer Familie von Decoder-only-Transformer-Modellen, die in einer autoregressiven Weise arbeiten und flexible Vorhersagehorizonte mit variierenden Eingabekontextlängen unterstützen. Wir haben diese Modelle auf unseren neu eingeführten groß angelegten Datensatz Time-300B vortrainiert, der über 9 Domänen erstreckt und mehr als 300 Milliarden Zeitpunkte umfasst. Zum ersten Mal haben wir ein Zeitreihen-Grundlagenmodell auf 2,4 Milliarden Parametern hochskaliert und dabei eine signifikant verbesserte Vorhersagegenauigkeit erzielt. Unsere Ergebnisse bestätigen die Anwendbarkeit von Skalierungsgesetzen für das Training von Tokens und Modellgröße im Kontext der Zeitreihenvorhersage. Im Vergleich zu dichten Modellen mit derselben Anzahl aktivierter Parameter oder äquivalenten Rechenbudgets übertreffen unsere Modelle sie durchweg deutlich. Diese Fortschritte positionieren Time-MoE als eine hochmoderne Lösung zur Bewältigung von Herausforderungen bei der Vorhersage von Zeitreihen in der realen Welt mit überlegener Leistungsfähigkeit, Effizienz und Flexibilität.
In diesem technischen Bericht dokumentieren wir die Änderungen, die wir am SDXL vorgenommen haben, während wir das NovelAI Diffusion V3 trainiert haben, unser modernes Modell zur Generierung von Anime-Bildern.
Wie können sich Roboter-Manipulationsrichtlinien auf neue Aufgaben mit unerkannten Objekttypen und neuen Bewegungen verallgemeinern lassen? In diesem Paper präsentieren wir eine Lösung, die darauf basiert, Bewegungsinformationen aus Webdaten vorherzusagen, indem menschliche Videos generiert und eine Roboter-Richtlinie auf dem generierten Video konditioniert werden. Anstatt zu versuchen, die Datensammlung von Robotern zu skalieren, was teuer ist, zeigen wir, wie wir Videogenerierungsmodelle nutzen können, die auf leicht verfügbaren Webdaten trainiert sind, um eine Verallgemeinerung zu ermöglichen. Unser Ansatz Gen2Act betrachtet sprachkonditionierte Manipulation als Null-Shot-menschliche Videogenerierung, gefolgt von der Ausführung mit einer einzigen auf dem generierten Video konditionierten Richtlinie. Um die Richtlinie zu trainieren, verwenden wir eine Größenordnung weniger Roboterinteraktionsdaten im Vergleich zu dem, worauf das Videovorhersagemodell trainiert wurde. Gen2Act erfordert überhaupt kein Feintuning des Videomodells, und wir verwenden direkt ein vorab trainiertes Modell zur Generierung menschlicher Videos. Unsere Ergebnisse in vielfältigen realen Szenarien zeigen, wie Gen2Act das Manipulieren von unerkannten Objekttypen und das Ausführen neuer Bewegungen für Aufgaben ermöglicht, die nicht in den Roboterdaten enthalten sind. Videos sind unter https://homangab.github.io/gen2act/ verfügbar.
Im Vergleich zu Großen Sprachmodellen (LLMs) können Große Bild-Sprach-Modelle (LVLMs) auch Bilder als Eingabe akzeptieren, was interessantere emergente Fähigkeiten zeigt und beeindruckende Leistungen bei verschiedenen Bild-Sprach-Aufgaben demonstriert. Angeregt durch Textvorgaben in LLMs wurde die visuelle Vorgabe erforscht, um die Fähigkeiten von LVLMs zur Wahrnehmung visueller Informationen zu verbessern. Bisherige visuelle Vorgabetechniken verarbeiten jedoch ausschließlich visuelle Eingaben, ohne Textabfragen zu berücksichtigen, was die Fähigkeit der Modelle einschränkt, Textanweisungen zur Durchführung von Aufgaben zu befolgen. Um diese Lücke zu schließen, schlagen wir in dieser Arbeit eine neue Vorgabetechnik namens Aufmerksamkeitsvorgabe auf Bildern vor, die einfach eine textabfragegesteuerte Aufmerksamkeits-Heatmap über das ursprüngliche Eingabebild legt und LVLMs effektiv bei verschiedenen Aufgaben verbessert. Konkret generieren wir eine Aufmerksamkeits-Heatmap für das Eingabebild abhängig von der Textabfrage mit einem Hilfsmodell wie CLIP. Dann multipliziert die Heatmap einfach die Pixelwerte des Originalbildes, um das tatsächliche Eingabebild für das LVLM zu erhalten. Umfangreiche Experimente an verschiedenen Bild-Sprach-Benchmarks bestätigen die Wirksamkeit unserer Technik. Beispielsweise verbessert die Aufmerksamkeitsvorgabe auf Bildern LLaVA-1.5 um 3,8 % bzw. 2,9 % auf den MM-Vet- und LLaVA-Wild-Benchmarks.
Mit dem Fortschreiten von Large Language Models (LLMs) hin zu fortschrittlicheren Formen der Intelligenz wird das Reinforcement Learning from Human Feedback (RLHF) zunehmend als ein Schlüsselweg zur Erreichung Künstlicher Allgemeiner Intelligenz (AGI) angesehen. Die Abhängigkeit von belohnungsmodellbasierten (RM-basierten) Ausrichtungsmethoden führt jedoch zu erheblichen Herausforderungen aufgrund der inhärenten Instabilität und Unvollkommenheiten von Reward Models (RMs), die zu kritischen Problemen wie Belohnungsumgehung und Missabstimmung mit menschlichen Absichten führen können. In diesem Papier stellen wir ein belohnungsrobustes RLHF-Framework vor, das darauf abzielt, diese grundlegenden Herausforderungen anzugehen und den Weg für zuverlässigeres und widerstandsfähigeres Lernen in LLMs zu ebnen. Unser Ansatz führt ein neuartiges Optimierungsziel ein, das die Leistung und Robustheit sorgfältig ausbalanciert, indem Bayesian Reward Model Ensembles (BRME) zur Modellierung des Unsicherheitsbereichs von Belohnungsfunktionen einbezogen werden. Dies ermöglicht es dem Framework, sowohl nominale Leistung als auch minimale Belohnungssignale zu integrieren, um ein stabileres Lernen auch bei unvollkommenen Belohnungsmodellen zu gewährleisten. Empirische Ergebnisse zeigen, dass unser Framework konsistent bessere Leistungen als herkömmliches RLHF bei verschiedenen Benchmarks erzielt, was sich in verbesserter Genauigkeit und langfristiger Stabilität zeigt. Wir bieten auch eine theoretische Analyse, die zeigt, dass belohnungsrobuste RLHF-Ansätze sich der Stabilität von konstanten Belohnungseinstellungen annähern, was sich als wirksam in einer stochastischen Fallanalyse erweist. Zusammenfassend verdeutlichen diese Beiträge das Potenzial des Frameworks, sowohl die Leistung als auch die Stabilität der LLM-Ausrichtung mit RLHF zu verbessern.
Traditionelle Ansätze zur benannten Entitätenerkennung (NER) fassen die Aufgabe als ein BIO-Sequenzmarkierungsproblem auf. Obwohl diese Systeme oft bei der nachgelagerten Aufgabe hervorragende Leistungen erbringen, erfordern sie umfangreiche annotierte Daten und haben Schwierigkeiten, auf Eingabebereiche außerhalb der Verteilung und unbekannte Entitätentypen zu verallgemeinern. Im Gegensatz dazu haben große Sprachmodelle (LLMs) starke Null-Schuss-Fähigkeiten gezeigt. Während mehrere Arbeiten das Null-Schuss-NER in Englisch behandeln, wurde in anderen Sprachen wenig unternommen. In diesem Artikel definieren wir einen Bewertungsrahmen für Null-Schuss-NER und wenden ihn auf die italienische Sprache an. Darüber hinaus stellen wir SLIMER-IT vor, die italienische Version von SLIMER, einem Anleitung-Abstimmungsansatz für Null-Schuss-NER, der auf mit Definitionen und Richtlinien angereicherten Aufforderungen basiert. Vergleiche mit anderen modernsten Modellen zeigen die Überlegenheit von SLIMER-IT bei nie zuvor gesehenen Entitätentags.
Belohnungsmodelle (RMs) spielen eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Präferenzen. Allerdings kämpft das traditionelle Training von RMs, das auf Antwortpaaren basiert, die an spezifische Aufforderungen gebunden sind, damit, Aufforderungsgetriebene Präferenzen von aufforderungsunabhängigen Artefakten wie Antwortlänge und -format zu trennen. In dieser Arbeit zeigen wir eine grundlegende Einschränkung der aktuellen RM-Trainingsmethoden auf, bei der RMs nicht effektiv zwischen kontextuellen Signalen und irrelevanten Artefakten unterscheiden können, wenn es um die Bestimmung von Präferenzen geht. Um dies zu lösen, führen wir ein kausales Rahmenwerk ein, das Präferenzen unabhängig von diesen Artefakten lernt, und schlagen eine neuartige Datenanreicherungstechnik vor, die darauf abzielt, diese zu eliminieren. Umfangreiche Experimente zeigen, dass unser Ansatz unerwünschte Artefakte erfolgreich herausfiltert und ein robusteres Belohnungsmodell (RRM) liefert. Unser RRM verbessert die Leistung eines paarweisen Belohnungsmodells, das auf Gemma-2-9b-it trainiert wurde, auf RewardBench, wobei die Genauigkeit von 80,61% auf 84,15% steigt. Darüber hinaus trainieren wir zwei DPO-Richtlinien unter Verwendung sowohl des RM als auch des RRM und zeigen, dass das RRM die DPO-ausgerichteten Richtlinien signifikant verbessert, wobei die MT-Bench-Werte von 7,27 auf 8,31 und die Längenkontrollgewinnraten in AlpacaEval-2 von 33,46% auf 52,49% steigen.
Das Imitationslernen hat sich als ein leistungsstolles Werkzeug für das Training komplexer visuomotorischer Richtlinien erwiesen. Allerdings erfordern aktuelle Methoden oft Hunderte bis Tausende von Expertendemonstrationen, um hochdimensionale visuelle Beobachtungen zu bewältigen. Ein wesentlicher Grund für diese geringe Dateneffizienz ist, dass visuelle Repräsentationen hauptsächlich entweder auf out-of-domain Daten vorab trainiert oder direkt durch ein Verhaltensklonungsziel trainiert werden. In dieser Arbeit präsentieren wir DynaMo, eine neue in-domain, selbstüberwachte Methode zum Erlernen visueller Repräsentationen. Unter Verwendung eines Satzes von Expertendemonstrationen lernen wir gemeinsam ein latentes inverses Dynamikmodell und ein Vorwärtsdynamikmodell über eine Sequenz von Bild-Einbettungen. Dabei wird das nächste Bild im latenten Raum vorhergesagt, ohne Augmentationen, kontrastive Abtastung oder Zugriff auf Ground-Truth-Aktionen. Wichtig ist, dass DynaMo keine out-of-domain Daten wie Internetdatensätze oder Cross-Embodied-Datensätze erfordert. In einer Reihe von sechs simulierten und realen Umgebungen zeigen wir, dass mit DynaMo erlernte Repräsentationen die Leistung des nachgelagerten Imitationslernens signifikant verbessern im Vergleich zu früheren selbstüberwachten Lernzielen und vorab trainierten Repräsentationen. Die Vorteile der Verwendung von DynaMo erstrecken sich über Richtlinienklassen wie Behavior Transformer, Diffusion Policy, MLP und nächste Nachbarn. Schließlich untersuchen wir Schlüsselkomponenten von DynaMo und messen deren Auswirkung auf die nachgelagerte Richtlinienleistung. Roboter-Videos sind am besten unter https://dynamo-ssl.github.io anzusehen.
Die Generierung synthetischer tabellarischer Daten ist in der KI-Forschung von entscheidender Bedeutung, insbesondere wenn echte Daten begrenzt oder sensibel sind. Traditionelle generative Modelle stoßen häufig auf Herausforderungen aufgrund der einzigartigen Merkmale tabellarischer Daten, wie gemischte Datentypen und unterschiedliche Verteilungen, und erfordern komplexe Vorverarbeitung oder große vorab trainierte Modelle. In diesem Paper stellen wir eine neuartige, verlustfreie binäre Transformationsmethode vor, die beliebige tabellarische Daten in binäre Darstellungen fester Größe umwandelt, sowie ein entsprechendes neues generatives Modell namens Binäre Diffusion, das speziell für binäre Daten entwickelt wurde. Binäre Diffusion nutzt die Einfachheit von XOR-Operationen zur Hinzufügung und Entfernung von Rauschen und verwendet binären Kreuzentropie-Verlust für das Training. Unser Ansatz beseitigt die Notwendigkeit umfangreicher Vorverarbeitung, komplexer Rauschparameterabstimmung und Vortrainings auf großen Datensätzen. Wir evaluieren unser Modell anhand mehrerer beliebter tabellarischer Benchmark-Datensätze und zeigen, dass Binäre Diffusion bestehende State-of-the-Art-Modelle auf den Datensätzen Travel, Adult Income und Diabetes übertrifft, während es signifikant kleiner ist.