Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im traditionellen RAG-Framework sind die grundlegenden Abrufeinheiten normalerweise kurz. Die gängigen Abrufsysteme wie DPR arbeiten normalerweise mit 100-Wort-Wikipedia-Absätzen. Ein solches Design zwingt den Abrufsystem dazu, in einem großen Korpus nach der "Nadel" zu suchen. Im Gegensatz dazu müssen die Leser nur Antworten aus den kurz abgerufenen Einheiten extrahieren. Ein solches unausgewogenes Design mit einem "schweren" Abrufsystem und einem "leichten" Leser kann zu einer suboptimalen Leistung führen. Um das Ungleichgewicht zu mildern, schlagen wir ein neues Framework namens LongRAG vor, bestehend aus einem "langen Abrufsystem" und einem "langen Leser". LongRAG verarbeitet das gesamte Wikipedia in 4K-Token-Einheiten, was 30-mal länger ist als zuvor. Durch die Erhöhung der Einheitsgröße reduzieren wir die Gesamteinheiten signifikant von 22 Mio. auf 700.000. Dies verringert die Belastung des Abrufsystems erheblich, was zu einer bemerkenswerten Abrufleistung führt: Antwortabruf@1=71% bei NQ (zuvor 52%) und Antwortabruf@2=72% (zuvor 47%) bei HotpotQA (vollständiges Wiki). Anschließend führen wir die Top-k abgerufenen Einheiten (ca. 30K Token) einem vorhandenen LLM mit langem Kontext zu, um die Extraktion von Antworten ohne Schulung durchzuführen. Ohne Schulung zu benötigen, erreicht LongRAG eine EM von 62,7% bei NQ, was das bisher beste Ergebnis ist. LongRAG erreicht auch 64,3% bei HotpotQA (vollständiges Wiki), was dem SoTA-Modell entspricht. Unsere Studie bietet Einblicke in die zukünftige Roadmap zur Kombination von RAG mit LLMs mit langem Kontext.
Als vielversprechende Lösung für die Skalierbarkeitsprobleme, die mit der menschlichen Bewertung verbunden sind, gewinnt das LLM-als-Richter-Paradigma schnell an Bedeutung als Ansatz zur Bewertung großer Sprachmodelle (LLMs). Es gibt jedoch noch viele offene Fragen zu den Stärken und Schwächen dieses Paradigmas und möglichen vorhandenen Voreingenommenheiten. In diesem Papier präsentieren wir eine umfassende Studie zur Leistung verschiedener LLMs als Richter. Wir nutzen TriviaQA als Benchmark zur Bewertung des objektiven Wissensschlusses von LLMs und bewerten sie neben menschlichen Annotationen, bei denen wir eine hohe Übereinstimmung zwischen Annotatoren festgestellt haben. Unsere Studie umfasst 9 Richtermodelle und 9 Prüflingsmodelle - sowohl Basis- als auch instruktionsangepasste. Wir bewerten die Übereinstimmung der Richtermodelle in Bezug auf verschiedene Modellgrößen, -familien und Richtervorgaben. Unter anderem entdeckt unsere Forschung die Bedeutung der Verwendung von Cohens Kappa als Metrik für die Übereinstimmung im Gegensatz zur einfachen prozentualen Übereinstimmung, wobei gezeigt wird, dass Richter mit hoher prozentualer Übereinstimmung dennoch stark unterschiedliche Punktzahlen vergeben können. Wir stellen fest, dass sowohl Llama-3 70B als auch GPT-4 Turbo eine ausgezeichnete Übereinstimmung mit Menschen aufweisen, aber hinsichtlich der Rangfolge der Prüflingsmodelle von sowohl JudgeLM-7B als auch dem lexikalischen Richter Contains übertroffen werden, die bis zu 34 Punkte niedrigere menschliche Übereinstimmung aufweisen. Durch Fehleranalyse und verschiedene andere Studien, einschließlich der Auswirkungen von Anweisungslänge und Milde-Bias, hoffen wir, wertvolle Lektionen für die zukünftige Verwendung von LLMs als Richter bereitzustellen.
Video-Content-Ersteller benötigen effiziente Tools zur Wiederverwertung von Inhalten, eine Aufgabe, die oft komplexe manuelle oder automatisierte Suchvorgänge erfordert. Die Erstellung eines neuen Videos aus umfangreichen Video-Bibliotheken bleibt eine Herausforderung. In diesem Papier stellen wir die Aufgabe der Video-Bibliotheks-Fragenbeantwortung (VLQA) durch eine interoperable Architektur vor, die Retrieval Augmented Generation (RAG) auf Video-Bibliotheken anwendet. Wir schlagen ein System vor, das große Sprachmodelle (LLMs) verwendet, um Suchanfragen zu generieren, relevante Videomomente abzurufen, die anhand von Sprach- und visuellen Metadaten indiziert sind. Ein Antwortgenerierungsmodul integriert dann Benutzeranfragen mit diesen Metadaten, um Antworten mit spezifischen Videostempeln zu erstellen. Dieser Ansatz zeigt vielversprechende Ergebnisse bei der Multimediainhaltsabfrage und der KI-unterstützten Videoinhalts-Erstellung.
Obwohl Transformers umfangreich für Natural Language Processing Aufgaben eingesetzt werden, insbesondere für maschinelle Übersetzungen, fehlt es ihnen an einem expliziten Speicher, um Schlüsselkonzepte der verarbeiteten Texte zu speichern. Diese Arbeit untersucht die Eigenschaften des Inhalts des symbolischen Arbeitsgedächtnisses, das dem Decoder des Transformer-Modells hinzugefügt wurde. Ein solches Arbeitsgedächtnis verbessert die Qualität der Modellvorhersagen in der maschinellen Übersetzungsaufgabe und fungiert als neuronale-symbolische Repräsentation von Informationen, die für das Modell wichtig sind, um korrekte Übersetzungen zu erstellen. Die Untersuchung des Speicherinhalts ergab, dass Schlüsselwörter des übersetzten Textes im Arbeitsgedächtnis gespeichert sind, was auf die Relevanz des Speicherinhalts für den verarbeiteten Text hinweist. Außerdem korreliert die Vielfalt der Token und Wortarten, die im Gedächtnis gespeichert sind, mit der Komplexität der Korpora für die maschinelle Übersetzungsaufgabe.
In den letzten Jahren haben wir große Fortschritte bei der Videogenerierung erlebt. Allerdings hinkt die Entwicklung automatischer Videometriken erheblich hinterher. Keine der bestehenden Metriken ist in der Lage, zuverlässige Bewertungen über generierte Videos bereitzustellen. Das Hauptproblem ist der Mangel an einem umfangreichen, von Menschen annotierten Datensatz. In diesem Artikel veröffentlichen wir VideoFeedback, den ersten umfangreichen Datensatz, der von Menschen bereitgestellte Mehraspektbewertungen über 37,6K synthetisierte Videos von 11 bestehenden Videogenerierungsmodellen enthält. Wir trainieren MantisScore (initialisiert von Mantis) basierend auf VideoFeedback, um eine automatische Bewertung der Videoqualität zu ermöglichen. Experimente zeigen, dass die Spearman-Korrelation zwischen MantisScore und Menschen auf VideoFeedback-Test 77,1 erreichen kann und damit die bisher besten Metriken um etwa 50 Punkte übertrifft. Weitere Ergebnisse zu anderen zurückgehaltenen Datensätzen wie EvalCrafter, GenAI-Bench und VBench zeigen, dass MantisScore eine durchweg viel höhere Korrelation mit menschlichen Richtern aufweist als andere Metriken. Aufgrund dieser Ergebnisse glauben wir, dass MantisScore als ein großartiger Proxy für menschliche Bewerter dienen kann, um (1) verschiedene Videomodelle zu bewerten, um den Fortschritt zu verfolgen, und (2) feingliedertes menschliches Feedback in Reinforcement Learning mit menschlichem Feedback (RLHF) zu simulieren, um aktuelle Videogenerierungsmodelle zu verbessern.
Herausforderungen bei der automatisierten Bewertung von Retrieval-Augmented Generation (RAG) Frage-Antwort (QA) Systemen umfassen Halluzinationsprobleme im domänenspezifischen Wissen und das Fehlen von Goldstandard-Benchmarks für unternehmensinterne Aufgaben. Dies führt zu Schwierigkeiten bei der Bewertung von RAG-Varianten, wie RAG-Fusion (RAGF), im Kontext einer Produkt-QA-Aufgabe bei Infineon Technologies. Um diese Probleme zu lösen, schlagen wir ein umfassendes Bewertungsframework vor, das auf Large Language Models (LLMs) setzt, um große Datensätze synthetischer Anfragen basierend auf realen Benutzeranfragen und in-domänen Dokumenten zu generieren, LLM-als-Richter zur Bewertung von abgerufenen Dokumenten und Antworten einzusetzt, die Qualität der Antworten bewertet und verschiedene Varianten von Retrieval-Augmented Generation (RAG) Agenten mit RAGElo's automatisiertem Elo-basiertem Wettbewerb einstuft. Die Bewertung von LLM-als-Richter anhand einer zufälligen Stichprobe synthetischer Anfragen zeigt eine mäßige, positive Korrelation mit der Bewertung durch Domänenexperten in Bezug auf Relevanz, Genauigkeit, Vollständigkeit und Präzision. Während RAGF in der Elo-Wertung RAG übertraf, zeigt eine Signifikanzanalyse gegenüber Expertenannotationen auch, dass RAGF in Vollständigkeit signifikant besser abschneidet als RAG, jedoch in Präzision unterlegen ist. Darüber hinaus zeigte Infineons RAGF-Assistent eine leicht höhere Leistung in der Dokumentenrelevanz basierend auf MRR@5-Werten. Wir stellen fest, dass RAGElo positiv mit den Präferenzen menschlicher Annotatoren übereinstimmt, obwohl weiterhin Vorsicht geboten ist. Schließlich führt der Ansatz von RAGF zu vollständigeren Antworten basierend auf Expertenannotationen und insgesamt besseren Antworten basierend auf den Bewertungskriterien von RAGElo.
Text-zu-Bild-Modelle werden zunehmend beliebter und revolutionieren die Landschaft der digitalen Kunstschöpfung, indem sie hochdetaillierte und kreative visuelle Inhalte generieren. Diese Modelle werden in verschiedenen Bereichen weit verbreitet eingesetzt, insbesondere in der Kunstgenerierung, wo sie ein breites Spektrum kreativen Ausdrucks ermöglichen und den Zugang zur künstlerischen Schöpfung demokratisieren. In diesem Papier stellen wir STYLEBREEDER vor, einen umfassenden Datensatz von 6,8 Mio. Bildern und 1,8 Mio. Anregungen, die von 95.000 Benutzern auf Artbreeder generiert wurden, einer Plattform, die sich als bedeutendes Zentrum für kreative Exploration mit über 13 Mio. Benutzern etabliert hat. Wir stellen eine Reihe von Aufgaben mit diesem Datensatz vor, die darauf abzielen, vielfältige künstlerische Stile zu identifizieren, personalisierte Inhalte zu generieren und Stile basierend auf den Benutzerinteressen zu empfehlen. Indem wir einzigartige, vom Benutzer generierte Stile dokumentieren, die herkömmliche Kategorien wie 'Cyberpunk' oder 'Picasso' überschreiten, erforschen wir das Potenzial für einzigartige, crowdsourcing-basierte Stile, die tiefe Einblicke in das kollektive kreative Bewusstsein von Benutzern weltweit bieten könnten. Wir evaluieren auch verschiedene Personalisierungsmethoden zur Verbesserung des künstlerischen Ausdrucks und stellen einen Stil-Atlas vor, der diese Modelle im LoRA-Format für die öffentliche Nutzung verfügbar macht. Unsere Forschung zeigt das Potenzial von Text-zu-Bild-Diffusionsmodellen auf, um einzigartige künstlerische Ausdrücke aufzudecken und zu fördern, wodurch die Demokratisierung von KI in der Kunst vorangetrieben und eine vielfältigere und inklusivere künstlerische Gemeinschaft gefördert wird. Der Datensatz, der Code und die Modelle sind unter einer Public Domain (CC0)-Lizenz auf https://stylebreeder.github.io verfügbar.
Event-basierte Vision hat aufgrund ihrer einzigartigen Merkmale wie hoher zeitlicher Auflösung und hohem Dynamikumfang zunehmend an Bedeutung gewonnen. In letzter Zeit wurde sie in der Videoupskalierung (VSR) eingesetzt, um die Flussschätzung und zeitliche Ausrichtung zu verbessern. Anstatt für die Bewegungserkennung schlagen wir in diesem Papier die erste VSR-Methode vor, die Ereignissignale zur Texturverbesserung nutzt. Unsere Methode, namens EvTexture, nutzt hochfrequente Details von Ereignissen, um Texturbereiche in der VSR besser wiederherzustellen. In unserem EvTexture wird ein neuer Texturverbesserungszweig präsentiert. Wir führen außerdem ein iteratives Texturverbesserungsmodul ein, um schrittweise die hochauflösenden Ereignisinformationen zur Texturwiederherstellung zu erkunden. Dies ermöglicht eine allmähliche Verfeinerung der Texturbereiche über mehrere Iterationen hinweg, was zu genaueren und reichhaltigeren hochauflösenden Details führt. Experimentelle Ergebnisse zeigen, dass unser EvTexture auf vier Datensätzen eine Spitzenleistung erzielt. Für den Datensatz Vid4 mit reichhaltigen Texturen kann unsere Methode im Vergleich zu aktuellen ereignisbasierten Methoden einen Gewinn von bis zu 4,67 dB erzielen. Code: https://github.com/DachunKai/EvTexture.
Die weitreichende Anwendbarkeit und zunehmende Omnipräsenz von LLMs haben die Notwendigkeit ausgelöst, LLM-Antworten an Benutzer- und Interessenvertreterpräferenzen auszurichten. Es wurden viele Ansätze zur Präferenzoptimierung vorgeschlagen, die LLM-Parameter feinabstimmen, um eine gute Ausrichtung zu erreichen. Allerdings ist bekannt, dass eine solche Parameterabstimmung die Modellleistung bei vielen Aufgaben beeinträchtigen kann. Zudem gestaltet sich das Schritt halten mit sich verändernden Benutzerpräferenzen in einer solchen Situation schwierig. Die Ausrichtung zur Dekodierungszeit mit Hilfe des Belohnungsmodells löst diese Probleme auf Kosten einer längeren Inferenzzeit. Allerdings gelingt es den meisten dieser Methoden nicht, das richtige Gleichgewicht zwischen Exploration und Ausbeutung der Belohnung zu finden - oft aufgrund der vermischt formulierten beiden Aspekte - um gut ausgerichtete Antworten zu liefern. Um dies zu beheben, entkoppeln wir diese beiden Aspekte und implementieren sie auf evolutionäre Weise: Die Exploration wird durch Dekodierung von mutierten Anweisungen erzwungen und die Ausbeutung wird als periodischer Austausch von schlecht belohnten Generationen durch gut belohnte dargestellt. Empirische Beweise zeigen, dass diese Strategie viele Präferenzoptimierungs- und Dekodierungszeit-Ausrichtungsansätze auf zwei weit verbreiteten Ausrichtungs-Benchmarks AlpacaEval 2 und MT-Bench übertrifft. Unsere Implementierung wird unter folgendem Link verfügbar sein: https://darwin-alignment.github.io.
Die weit verbreitete Verwendung großer Sprachmodelle (LLMs) hat Bedenken hinsichtlich ihrer Sicherheit und Zuverlässigkeit aufgeworfen, insbesondere in Bezug auf ihre Anfälligkeit für adversarielle Angriffe. In diesem Paper schlagen wir eine neue Perspektive vor, die diese Anfälligkeit auf eine Fehlausrichtung der Belohnung während des Ausrichtungsprozesses zurückführt. Wir führen eine Metrik ReGap ein, um das Ausmaß der Fehlausrichtung der Belohnung zu quantifizieren, und zeigen deren Wirksamkeit und Robustheit bei der Erkennung schädlicher Backdoor-Prompts auf. Aufbauend auf diesen Erkenntnissen präsentieren wir ReMiss, ein System für automatisiertes Red Teaming, das adversarielle Prompts gegen verschiedene zielgerichtete, ausgerichtete LLMs generiert. ReMiss erzielt Spitzenwerte bei den Angriffserfolgsraten auf dem AdvBench-Benchmark und bewahrt dabei die menschliche Lesbarkeit der generierten Prompts. Eine detaillierte Analyse hebt die einzigartigen Vorteile der vorgeschlagenen Zielsetzung der Fehlausrichtung der Belohnung im Vergleich zu früheren Methoden hervor.
Obwohl sich die Situation für reine Textmodelle verbessert hat, scheint es derzeit wieder der Fall zu sein, dass multimodale (Text und Bild) Modelle schneller entwickelt werden als Möglichkeiten zu ihrer Bewertung. In diesem Paper übertragen wir ein kürzlich entwickeltes Evaluationsparadigma von Textmodellen auf multimodale Modelle, nämlich die Evaluation durch zielgerichtetes Spiel (Selbstspiel), als Ergänzung zur referenzbasierten und präferenzbasierten Evaluation. Konkret definieren wir Spiele, die die Fähigkeit eines Modells herausfordern, eine Situation aus visuellen Informationen darzustellen und solche Darstellungen durch Dialoge auszurichten. Wir stellen fest, dass die größten geschlossenen Modelle recht gut in den von uns definierten Spielen abschneiden, während selbst die besten offenen Modelle mit ihnen zu kämpfen haben. Bei weiterer Analyse stellen wir fest, dass die außergewöhnlichen Fähigkeiten der größten Modelle zur tiefen Bildunterschrift einige der Leistungen antreiben. Es gibt immer noch Raum für Verbesserungen bei beiden Arten von Modellen, um die fortlaufende Relevanz des Benchmarks zu gewährleisten.
Sprachmodelle haben beeindruckende Fähigkeiten in verschiedenen natürlichen Sprachverarbeitungsaufgaben gezeigt, kämpfen jedoch mit Planungsaufgaben, die mehrstufige Simulationen erfordern. Inspiriert von menschlichen kognitiven Prozessen untersucht diese Arbeit die optimale Planungsfähigkeit von Sprachmodellen, die eine kognitive Karte einer gegebenen Umgebung erstellen können. Unsere Experimente zeigen, dass die kognitive Karte die Leistung sowohl der optimalen als auch der erreichbaren Planungsfähigkeit bei der Pfadplanung in der Gridworld signifikant verbessert. Wir beobachten, dass unsere Methode zwei Schlüsselmerkmale ähnlich der menschlichen Kognition aufweist: die Verallgemeinerung der Planungsfähigkeit auf extrapolierte Umgebungen und die schnelle Anpassung mit begrenzten Trainingsdaten. Wir hoffen, dass unsere Erkenntnisse in der Gridworld-Aufgabe Einblicke in die Modellierung menschlicher kognitiver Prozesse in Sprachmodellen liefern und möglicherweise zur Entwicklung fortschrittlicherer und robusterer Systeme führen, die der menschlichen Kognition besser ähneln.
Die Blüte der Virtual-Reality- und Augmented-Reality- (VR/AR) Technologien hat zu einer steigenden Nachfrage nach der Erstellung hochwertiger, immersiver und dynamischer Umgebungen geführt. Allerdings konzentrieren sich bestehende generative Techniken entweder ausschließlich auf dynamische Objekte oder führen Outpainting von einem einzigen Perspektivenbild durch, was den Anforderungen von VR/AR-Anwendungen nicht gerecht wird. In dieser Arbeit nehmen wir uns der anspruchsvollen Aufgabe an, ein einzelnes Panorama zu einem immersiven 4D-Erlebnis zu erheben. Zum ersten Mal zeigen wir die Fähigkeit, omnidirektionale dynamische Szenen mit 360-Grad-Ansichten in 4K-Auflösung zu generieren und somit ein immersives Benutzererlebnis zu bieten. Unsere Methode führt eine Pipeline ein, die natürliche Szenenanimationen ermöglicht und eine Reihe von 4D-Gaußschen mithilfe effizienter Splatting-Techniken für die Echtzeit-Erkundung optimiert. Um den Mangel an Szenen-skalierter annotierter 4D-Daten und -Modelle zu überwinden, insbesondere in Panoramaformaten, schlagen wir einen neuartigen Panorama-Denoiser vor, der generische 2D-Diffusionsprioritäten anpasst, um konsistent in 360-Grad-Bildern zu animieren und sie in Panoramavideos mit dynamischen Szenen in gezielten Regionen zu verwandeln. Anschließend erheben wir das Panoramavideo in eine 4D-immersive Umgebung, wobei räumliche und zeitliche Konsistenz erhalten bleibt. Durch die Übertragung von Vorwissen aus 2D-Modellen im Perspektivenbereich in den Panoramabereich und das 4D-Anheben mit räumlicher Erscheinung und geometrischer Regularisierung erreichen wir erstmals eine hochwertige Panorama-zu-4D-Generierung mit einer Auflösung von (4096 mal 2048). Besuchen Sie die Projektwebsite unter https://4k4dgen.github.io.
Die Undurchsichtigkeit bei der Entwicklung großer Sprachmodelle (LLMs) ruft zunehmend Bedenken hervor hinsichtlich der potenziellen Verunreinigung öffentlicher Benchmarks in den Vortrainingsdaten. Bestehende Methoden zur Erkennung von Verunreinigungen basieren typischerweise auf der Textüberschneidung zwischen Trainings- und Evaluierungsdaten, was zu oberflächlich sein kann, um tiefere Formen von Verunreinigungen widerzuspiegeln. In diesem Artikel präsentieren wir zunächst eine Form der länderübergreifenden Verunreinigung, die die Leistung von LLMs aufbläht und dabei die aktuellen Erkennungsmethoden umgeht, die absichtlich durch Überanpassung von LLMs an die übersetzten Versionen von Benchmark-Testsets eingefügt wurden. Anschließend schlagen wir generalisierungsbasierte Ansätze vor, um solche tief verborgenen Verunreinigungen aufzudecken. Konkret untersuchen wir die Veränderung der Leistung des LLMs, nachdem das ursprüngliche Benchmark durch den Austausch der falschen Antwortmöglichkeiten durch korrekte aus anderen Fragen modifiziert wurde. Verunreinigte Modelle können sich kaum auf solche einfacheren Situationen generalisieren, in denen die falschen Optionen nicht einmal falsch sein können, da alle Optionen in ihrer Memorisierung korrekt sind. Experimentelle Ergebnisse zeigen, dass länderübergreifende Verunreinigungen bestehende Erkennungsmethoden leicht täuschen können, jedoch nicht unsere. Darüber hinaus diskutieren wir die potenzielle Nutzung von länderübergreifenden Verunreinigungen zur Interpretation der Arbeitsmechanismen von LLMs und zur Nachschulung von LLMs für verbesserte mehrsprachige Fähigkeiten. Der von uns verwendete Code und Datensatz können unter https://github.com/ShangDataLab/Deep-Contam abgerufen werden.
Mit der Verbreitung von domänenspezifischen Modellen hat sich das Modell-Merging als eine Reihe von Techniken etabliert, die die Fähigkeiten mehrerer Modelle kombinieren, um ein Modell zu schaffen, das mehrere Aufgaben gleichzeitig erledigen kann, ohne zusätzliche Schulungskosten zu verursachen. In diesem Papier schlagen wir eine neue Modell-Merging-Technik namens Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging) vor, die eine neuartige Beschneidungstechnik, MAGPRUNE, verwendet, die signifikante Vorteile gegenüber DARE und TIES aufweist. MAGPRUNE ordnet zunächst die Parameter nach ihrer Größenordnung und weist Parametern mit niedrigeren Rängen, die niedrigeren Größenordnungen entsprechen, höhere Ausfallwahrscheinlichkeiten (p) zu. Um die ursprünglichen Einbettungen zu approximieren, verwendet MAGPRUNE eine Neuskalierung der Parameter, die das Überleben des zufälligen Ausfalls um 1/(1 - p) ermöglicht. Anhand von drei verschiedenen Expertenmodellen, die für das Merging in Betracht gezogen wurden (LM, Math, Code), sowie den entsprechenden Benchmark-Datensätzen (AlpacaEval, GSM8K, MBPP) zeigt DELLA eine durchschnittliche Verbesserung von 2,4 Punkten gegenüber Basismethoden, die eine Delta-Parameter-Beschneidung verwenden (eine Verbesserung von 3,6 Punkten gegenüber TIES, 1,2 Punkten gegenüber DARE) und 11,1 Punkten gegenüber dem Baseline-Modell ohne Beschneidung (TA). Den Quellcode veröffentlichen wir unter: https://github.com/declare-lab/della.
Die Retrieval Augmented Generation (RAG) stellt einen signifikanten Fortschritt in der künstlichen Intelligenz dar, indem sie eine Abrufphase mit einer generativen Phase kombiniert, wobei letztere in der Regel von großen Sprachmodellen (LLMs) betrieben wird. Die aktuellen gängigen Praktiken in RAG beinhalten die Verwendung von "angewiesenen" LLMs, die durch überwachtes Training feinabgestimmt werden, um ihre Fähigkeit zur Befolgung von Anweisungen zu verbessern und mit menschlichen Präferenzen unter Verwendung modernster Techniken in Einklang zu bringen. Entgegen der gängigen Meinung zeigt unsere Studie, dass Basismodelle unter unseren experimentellen Bedingungen im Durchschnitt um 20 % besser abschneiden als ihre angewiesenen Gegenstücke in RAG-Aufgaben. Diese Erkenntnis stellt die vorherrschenden Annahmen über die Überlegenheit von angewiesenen LLMs in RAG-Anwendungen in Frage. Weitere Untersuchungen enthüllen eine differenziertere Situation, die grundlegende Aspekte von RAG in Frage stellt und die Notwendigkeit für umfassendere Diskussionen zu diesem Thema nahelegt; oder, wie es Fromm ausdrücken würde, "Selten genügt ein Blick auf die Statistiken, um die Bedeutung der Zahlen zu verstehen".
Die Vorhersage der Wirksamkeit und Sicherheit von Medikamenten in vivo erfordert Informationen über biologische Reaktionen (z. B. Zellmorphologie und Genexpression) auf Störungen durch kleine Moleküle. Aktuelle Methoden des molekularen Repräsentationslernens bieten jedoch keinen umfassenden Überblick über Zellzustände unter diesen Störungen und haben Schwierigkeiten, Rauschen zu entfernen, was die Generalisierung des Modells beeinträchtigt. Wir stellen den Ansatz der Informationsausrichtung (InfoAlign) vor, um molekulare Repräsentationen durch die Informationsflaschenhalsmethode in Zellen zu erlernen. Wir integrieren Moleküle und zelluläre Reaktionsdaten als Knoten in einen Kontextgraphen, der sie mit gewichteten Kanten basierend auf chemischen, biologischen und rechnerischen Kriterien verbindet. Für jedes Molekül in einem Schulungsbatch optimiert InfoAlign die latente Repräsentation des Encoders mit einem Minimalitätsziel, um redundante strukturelle Informationen zu verwerfen. Ein Suffizienzziel dekodiert die Repräsentation, um sie mit verschiedenen Merkmalsräumen aus der Nachbarschaft des Moleküls im Kontextgraphen abzustimmen. Wir zeigen, dass das vorgeschlagene Suffizienzziel für die Ausrichtung enger ist als bestehende kontrastive Methoden auf Basis von Encodern. Empirisch validieren wir Repräsentationen von InfoAlign in zwei nachgelagerten Aufgaben: Vorhersage molekularer Eigenschaften im Vergleich zu bis zu 19 Basislinienmethoden über vier Datensätze hinweg sowie Null-Shot-Molekül-Morphologie-Abgleich.
Wir schlagen Ruby Teaming vor, eine Methode, die Rainbow Teaming verbessert, indem sie einen Speicher-Cache als dritte Dimension einbezieht. Die Speicherdimension liefert Hinweise an den Mutator, um qualitativ hochwertigere Aufforderungen zu liefern, sowohl in Bezug auf die Angriffserfolgsrate (ASR) als auch auf die Qualitätsvielfalt. Das von Ruby Teaming generierte Aufforderungsarchiv weist eine ASR von 74% auf, was 20% höher ist als die Basislinie. In Bezug auf die Qualitätsvielfalt übertrifft Ruby Teaming Rainbow Teaming um 6% bzw. 3% beim Shannon's Evenness Index (SEI) und beim Simpson's Diversity Index (SDI).
Das Benchmarking von auf Vision basierenden Fahrstrategien ist eine Herausforderung. Einerseits ist die Evaluierung im Open-Loop mit echten Daten einfach, aber diese Ergebnisse spiegeln nicht die Leistung im Closed-Loop wider. Andererseits ist die Evaluierung im Closed-Loop in der Simulation möglich, aber aufgrund des hohen Rechenaufwands schwer zu skalieren. Darüber hinaus weisen die heute verfügbaren Simulatoren eine große Domänenlücke zu echten Daten auf. Dies hat dazu geführt, dass aus dem rasant wachsenden Forschungsbereich des end-to-end autonomen Fahrens keine klaren Schlussfolgerungen gezogen werden können. In diesem Artikel präsentieren wir NAVSIM, einen Mittelweg zwischen diesen Evaluierungsparadigmen, bei dem wir große Datensätze in Kombination mit einem nicht reaktiven Simulator verwenden, um Benchmarking im großen Maßstab in der realen Welt zu ermöglichen. Konkret sammeln wir simulationsbasierte Metriken wie Fortschritt und Zeit bis zur Kollision, indem wir Vogelperspektivenabstraktionen der Testszenerien für einen kurzen Simulationshorizont entfalten. Unsere Simulation ist nicht reaktiv, d.h. die bewertete Richtlinie und Umgebung beeinflussen sich nicht gegenseitig. Wie wir empirisch zeigen, ermöglicht diese Entkopplung die Berechnung von Open-Loop-Metriken und ist besser auf Closed-Loop-Evaluierungen ausgerichtet als traditionelle Verschiebungsfehler. NAVSIM ermöglichte einen neuen Wettbewerb, der auf der CVPR 2024 stattfand, bei dem 143 Teams 463 Beiträge einreichten und zu mehreren neuen Erkenntnissen führte. In einer großen Anzahl von anspruchsvollen Szenarien beobachten wir, dass einfache Methoden mit moderaten Rechenanforderungen wie TransFuser mit aktuellen groß angelegten end-to-end-Fahrarchitekturen wie UniAD mithalten können. Unser modulares Framework kann potenziell um neue Datensätze, Datenkuratierungsstrategien und Metriken erweitert werden und wird kontinuierlich gewartet, um zukünftige Herausforderungen zu hosten. Unser Code ist verfügbar unter https://github.com/autonomousvision/navsim.
Groß angelegte generative Sprach- und Vision-Sprachmodelle (LLMs und VLMs) zeichnen sich durch ihre Fähigkeit aus, mit wenigen Beispielen im Kontext zu lernen, um Entscheidungsfindung und Anweisungen zu verbessern. Allerdings benötigen sie hochwertige Demonstrationsbeispiele, die in ihr Kontextfenster aufgenommen werden sollen. In dieser Arbeit stellen wir die Frage: Können LLMs und VLMs ihre eigenen Beispielsätze aus generischen, suboptimalen Demonstrationen generieren? Wir schlagen In-Context Abstraction Learning (ICAL) vor, eine Methode, die aus suboptimalen Demonstrationen und menschlichem Feedback Erkenntnisse aus multimodaler Erfahrung aufbaut. Bei einer rauschenden Demonstration in einem neuen Bereich abstrahieren VLMs die Trajektorie in ein allgemeines Programm, indem sie ineffiziente Aktionen beheben und kognitive Abstraktionen annotieren: Aufgabenbeziehungen, Objektzustandsänderungen, zeitliche Zwischenziele und Aufgabeninterpretationen. Diese Abstraktionen werden interaktiv durch menschliches Feedback verfeinert und angepasst, während der Agent versucht, die Trajektorie in einer ähnlichen Umgebung auszuführen. Die resultierenden Abstraktionen verbessern signifikant die Entscheidungsfindung bei abrufgestützten LLM- und VLM-Agenten, wenn sie als Beispiele im Prompt verwendet werden. Unser ICAL-Agent übertrifft den Stand der Technik in dialogbasierten Anweisungen in TEACh, multimodalen Webagenten in VisualWebArena und Aktionsvorhersagen in Ego4D. In TEACh erzielen wir eine Verbesserung des Zielzustandserfolgs um 12,6%. In VisualWebArena verbessert sich unsere Erfolgsrate bei Aufgaben gegenüber dem Stand der Technik von 14,3% auf 22,7%. Bei der Aktionsvorhersage in Ego4D verbessern wir uns gegenüber dem Few-Shot GPT-4V und bleiben wettbewerbsfähig mit überwachten Modellen. Wir zeigen, dass das Feintuning unseres abrufgestützten In-Context-Agenten zusätzliche Verbesserungen bringt. Unser Ansatz reduziert signifikant die Abhängigkeit von expertengefertigten Beispielen und übertrifft konsistent das Lernen im Kontext von Aktionsplänen, die solche Erkenntnisse vermissen lassen.
Wir schlagen eine einfache, aber effektive Pipeline zur Stilisierung einer 3D-Szene vor, die die Leistungsfähigkeit von 2D-Bilddiffusionsmodellen nutzt. Ausgehend von einem NeRF-Modell, das aus einer Reihe von Multi-View-Bildern rekonstruiert wurde, führen wir eine 3D-Stilübertragung durch, indem wir das Quell-NeRF-Modell mithilfe von stilisierten Bildern verfeinern, die von einem stilangepassten Bild-zu-Bild-Diffusionsmodell generiert wurden. Unter Verwendung eines Ziel-Stil-Prompts generieren wir zunächst wahrnehmungsgleichartige Multi-View-Bilder, indem wir ein tiefenbedingtes Diffusionsmodell mit einem Aufmerksamkeitsteilungsmechanismus nutzen. Anschließend schlagen wir vor, basierend auf den stilisierten Multi-View-Bildern den Stiltransferprozess mit dem geschnittenen Wasserstein-Verlust zu leiten, der auf den Merkmalskarten basiert, die aus einem vorab trainierten CNN-Modell extrahiert wurden. Unsere Pipeline besteht aus entkoppelten Schritten, die es den Benutzern ermöglichen, verschiedene Ideen für Prompts zu testen und das stilisierte 3D-Ergebnis vor dem Fortfahren zum NeRF-Feinabstimmungsstadium zu überprüfen. Wir zeigen, dass unsere Methode verschiedene künstlerische Stile mit konkurrenzfähiger Qualität auf realen 3D-Szenen übertragen kann.
Große Sprachmodelle (LLMs), die für die Textsuche feinabgestimmt sind, haben Spitzenleistung über mehrere Informationsabruf (IR)-Benchmarks gezeigt. Allerdings erfordert die überwachte Schulung zur Verbesserung dieser Modelle zahlreiche gelabelte Beispiele, die in der Regel nicht verfügbar oder teuer zu beschaffen sind. In dieser Arbeit untersuchen wir die Wirksamkeit der Erweiterung der rückwärts entwickelten Anpassung im Kontext des Informationsabrufs (RE-AdaptIR). Wir verwenden RE-AdaptIR, um LLM-basierte IR-Modelle mithilfe nur von ungelabelten Daten zu verbessern. Wir zeigen eine verbesserte Leistung sowohl in Trainingsdomänen als auch in Null-Schuss-Domänen, in denen die Modelle keine Anfragen gesehen haben. Wir analysieren Leistungsänderungen in verschiedenen Feinabstimmungsszenarien und bieten Erkenntnisse von unmittelbarem Nutzen für Praktiker.
Multimodale Grundlagenmodelle (MMFMs) haben eine bemerkenswerte Leistung bei verschiedenen Computer Vision und Natural Language Processing Aufgaben gezeigt. Ihre Leistungsfähigkeit bei bestimmten Aufgaben wie der Dokumentenverarbeitung ist jedoch noch begrenzt. Zudem erfordern sie mehr Rechenleistung, Zeit und technische Ressourcen für die Feinabstimmung und Bereitstellung im Vergleich zu traditionellen, unimodalen Modellen. In diesem Bericht stellen wir Multimodale Strukturierte Generierung vor, ein allgemeines Rahmenwerk, das die Ausgabelogits eingefrorener MMFMs einschränkt, um sie zu zwingen, vor der Antwort mit strukturierten Ausgaben zu argumentieren, die nachgelagerte APIs analysieren und verwenden können. Wir bieten einen detaillierten Bericht über unseren Ansatz, einschließlich der technischen Details, theoretischen Diskussionen und abschließenden Evaluierungsergebnisse im 2. Multimodale Grundlagenmodelle Challenge, veranstaltet von der Computer Vision and Pattern Recognition (CVPR) Konferenz. Unser Ansatz erzielte den zweithöchsten Score im versteckten Testset für Phase 2 und den dritthöchsten insgesamt. Dies zeigt die Fähigkeit der Methode, sich auf unbekannte Aufgaben zu verallgemeinern. Und dass einfache technische Lösungen teure und komplizierte Modellierungsschritte schlagen können, wie wir zuerst in unserem Paper "Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use" diskutiert haben. Alle unsere Skripte, Bereitstellungsschritte und Evaluierungsergebnisse sind unter https://github.com/leloykun/MMFM-Challenge abrufbar.
Bestehende Modelle zur Erkennung von toxischen Inhalten stoßen auf erhebliche Einschränkungen, wie beispielsweise mangelnde Transparenz, Anpassungsfähigkeit und Reproduzierbarkeit. Diese Herausforderungen resultieren aus dem Closed-Source-Charakter ihrer Trainingsdaten und dem Mangel an Erklärungen für ihren Bewertungsmechanismus. Um diesen Problemen zu begegnen, schlagen wir einen Mechanismus zur Erstellung von Datensätzen vor, der Abstimmung und Ketten-Denkvorgänge integriert und einen hochwertigen Open-Source-Datensatz für die Erkennung von toxischen Inhalten erzeugt. Unsere Methodik gewährleistet vielfältige Klassifizierungsmetriken für jedes Beispiel und beinhaltet sowohl Klassifizierungswerte als auch erläuternde Begründungen für die Klassifizierungen. Wir nutzen den durch unseren vorgeschlagenen Mechanismus erstellten Datensatz, um unser Modell zu trainieren, das dann mit bestehenden weit verbreiteten Detektoren verglichen wird. Unser Ansatz verbessert nicht nur die Transparenz und Anpassungsfähigkeit, sondern erleichtert auch eine bessere Feinabstimmung für spezifische Anwendungsfälle. Diese Arbeit trägt zu einem robusten Rahmen für die Entwicklung von Modellen zur Erkennung von toxischen Inhalten bei, wobei Offenheit und Anpassungsfähigkeit betont werden und somit den Weg für effektivere und benutzerspezifische Lösungen zur Inhaltsmoderation ebnet.
Große Sprachmodelle (LLMs) versuchen, menschliches Verhalten nachzuahmen, indem sie auf Menschen reagieren, um sie zufriedenzustellen, auch indem sie sich an deren Werten orientieren. Allerdings stammen Menschen aus verschiedenen Kulturen mit unterschiedlichen Werten. Es ist entscheidend zu verstehen, ob LLMs dem Benutzer basierend auf den stereotypen Werten eines bekannten Landes unterschiedliche Werte präsentieren. Wir fordern verschiedene LLMs mit einer Reihe von Ratsucheanfragen basierend auf den 5 Hofstede-Kulturdimensionen heraus - einer quantifizierbaren Methode zur Darstellung der Werte eines Landes. Während jeder Anfrage integrieren wir Personas, die 36 verschiedene Länder repräsentieren, sowie separat Sprachen, die hauptsächlich mit jedem Land verbunden sind, um die Konsistenz im kulturellen Verständnis der LLMs zu analysieren. Durch unsere Analyse der Antworten stellten wir fest, dass LLMs zwischen verschiedenen Seiten eines Wertes unterscheiden können und verstehen, dass Länder unterschiedliche Werte haben, aber nicht immer die Werte einhalten, wenn sie Ratschläge geben, und das Bedürfnis, basierend auf unterschiedlichen kulturellen Werten unterschiedlich zu antworten, nicht verstehen. Basierend auf diesen Erkenntnissen präsentieren wir Empfehlungen zur Schulung von wertorientierten und kulturell sensiblen LLMs. Vor allem können die hier entwickelte Methodik und der Rahmen dazu beitragen, kulturelle und sprachliche Abstimmungsprobleme mit LLMs weiter zu verstehen und zu mildern.
Wir präsentieren einen neuen Ansatz, der auf dem personalisierten federierten Lernalgorithmus MeritFed basiert und auf natürlichsprachliche Aufgaben mit heterogenen Daten angewendet werden kann. Wir evaluieren diesen Ansatz anhand der Aufgabe der maschinellen Übersetzung mit geringen Ressourcen unter Verwendung des Datensatzes der Shared Task für maschinelle Übersetzung in großem Maßstab (Small Track #2) und des Teils der samischen Sprachen aus dem mehrsprachigen Benchmark für finno-ugrische Sprachen. Neben seiner Effektivität ist MeritFed auch äußerst interpretierbar, da er verwendet werden kann, um den Einfluss jeder Sprache, die für das Training verwendet wird, nachzuverfolgen. Unsere Analyse zeigt, dass die Größe des Ziel-Datensatzes die Gewichtsverteilung über die Hilfssprachen beeinflusst, dass nicht verwandte Sprachen das Training nicht beeinträchtigen und dass die Hilfs-Optimierungsparameter nur minimalen Einfluss haben. Unser Ansatz ist einfach mit wenigen Codezeilen anzuwenden, und wir stellen Skripte zur Verfügung, um die Experimente unter https://github.com/VityaVitalich/MeritFed reproduzieren zu können.