Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die durch LLMs generierten Schlussfolgerungsschritte könnten unvollständig sein, da sie logische Sprünge nachahmen, die in der alltäglichen Kommunikation häufig vorkommen und in ihren vorab trainierten Daten zu finden sind: zugrunde liegende Begründungen werden häufig implizit (nicht explizit) gelassen. Um diese Herausforderung anzugehen, stellen wir RATIONALYST vor, ein Modell für die Prozessaufsicht des Schlussfolgerns, das auf einem umfangreichen Satz von Begründungsannotationen basiert, die aus unbeschrifteten Daten extrahiert wurden. Wir extrahieren 79.000 Begründungen aus einem webbasierten unbeschrifteten Datensatz (dem Pile) und einer Kombination von Schlussfolgerungsdatensätzen mit minimalem menschlichem Eingriff. Dieses webbasierte Vorabtraining für das Schlussfolgern ermöglicht es RATIONALYST, konsistent über verschiedene Schlussfolgerungsaufgaben hinweg zu verallgemeinern, einschließlich mathematischer, allgemeiner, wissenschaftlicher und logischer Schlussfolgerungen. Feinabgestimmt von LLaMa-3-8B verbessert RATIONALYST die Genauigkeit des Schlussfolgerns im Durchschnitt um 3,9% bei 7 repräsentativen Schlussfolgerungsprüfungen. Es zeigt auch eine überlegene Leistung im Vergleich zu deutlich größeren Verifizierern wie GPT-4 und ähnlich großen Modellen, die auf passenden Trainingssätzen feinabgestimmt sind.
Verschiedene visuelle Grundlagenmodelle weisen unterschiedliche Stärken und Schwächen auf, die beide durch heterogenes Multi-Lehrer-Wissensdestillation ohne Labels verbessert werden können, bezeichnet als "agglomerative Modelle." Wir bauen auf diesem Forschungsbereich auf, indem wir die Auswirkung der Aktivierungsstatistiken der Lehrer untersuchen, insbesondere den Einfluss der Verlustfunktion auf die resultierende Qualität des Schülermodells. Wir erkunden ein Standard-Toolkit von statistischen Normalisierungstechniken, um die verschiedenen Verteilungen besser anzugleichen und ihre Auswirkungen zu bewerten. Darüber hinaus untersuchen wir den Einfluss auf nachgelagerte Lehrer-Matching-Metriken, was die Verwendung von Hadamard-Matrizen motiviert. Mit diesen Matrizen zeigen wir nützliche Eigenschaften auf und zeigen, wie sie zur isotropen Standardisierung verwendet werden können, wobei jede Dimension einer multivariaten Verteilung unter Verwendung der gleichen Skala standardisiert wird. Wir nennen diese Technik "PHI-Standardisierung" (PHI-S) und zeigen empirisch, dass sie das beste Schülermodell aus der untersuchten Methodensammlung erzeugt.
Obwohl große Sprachmodelle bedeutende Fortschritte bei der Codegenerierung erzielt haben, wird die Bestehensrate des generierten Codes oft durch subtile Fehler behindert, die häufig menschliches Eingreifen erfordern, insbesondere bei komplexen Problemen. Vorhandene auf großen Sprachmodellen basierende Debugging-Systeme behandeln generierte Programme als monolithische Einheiten und können Fehler auf verschiedenen Granularitätsebenen, von syntaktischen Fehlern auf niedriger Ebene bis hin zu algorithmischen Fehlern auf hoher Ebene, nicht beheben. In diesem Artikel stellen wir den Multi-Granularity Debugger (MGDebugger) vor, einen hierarchischen Code-Debugger, der Fehler auf verschiedenen Granularitätsebenen isoliert, identifiziert und behebt. MGDebugger zerlegt problematischen Code in eine hierarchische Baumstruktur von Teilfunktionen, wobei jede Ebene eine bestimmte Fehlergranularität repräsentiert. Während des Debuggens analysiert er jede Teilfunktion und behebt Fehler iterativ von unten nach oben. Um jede Teilfunktion effektiv zu testen, schlagen wir einen LLM-simulierten Python-Executor vor, der die Codeausführung verfolgt und wichtige Variablenzustände überwacht, um Fehler präzise zu lokalisieren. Umfangreiche Experimente zeigen, dass MGDebugger vorhandene Debugging-Systeme übertrifft, eine Verbesserung der Genauigkeit um 18,9% gegenüber den Ausgangsgenerationen in HumanEval erzielt und eine Reparaturerfolgsrate von 97,6% in HumanEvalFix erreicht. Darüber hinaus behebt MGDebugger effektiv Fehler in verschiedenen Kategorien und Schwierigkeitsgraden und zeigt damit seine Robustheit und Effektivität.
Neuronale Strahlungsfelder (NeRF) werden weit verbreitet für die Synthese von neuen Ansichten verwendet und wurden für die 3D-Objekterkennung (3DOD) angepasst, was einen vielversprechenden Ansatz für die 3DOD durch die Darstellung der Ansichtssynthese bietet. Allerdings hat NeRF inhärente Einschränkungen: (i) begrenzte Darstellungskapazität für 3DOD aufgrund seiner impliziten Natur und (ii) langsame Rendergeschwindigkeiten. Kürzlich hat sich das 3D-Gauß-Splatting (3DGS) als explizite 3D-Darstellung herausgebildet, die diese Einschränkungen angeht. Inspiriert von diesen Vorteilen führt diese Arbeit 3DGS erstmals in die 3DOD ein und identifiziert zwei Hauptprobleme: (i) Unklare räumliche Verteilung von Gauß'schen Blobs: 3DGS stützt sich hauptsächlich auf 2D-Pixel-Ebene-Aufsicht, was zu einer unklaren 3D-räumlichen Verteilung von Gauß'schen Blobs und einer schlechten Unterscheidung zwischen Objekten und Hintergrund führt, was die 3DOD behindert; (ii) Übermäßige Hintergrundblobs: 2D-Bilder enthalten oft zahlreiche Hintergrundpixel, was zu dicht rekonstruiertem 3DGS mit vielen rauschenden Gauß'schen Blobs führt, die den Hintergrund repräsentieren und die Erkennung negativ beeinflussen. Um das Problem (i) anzugehen, nutzen wir die Tatsache, dass die 3DGS-Rekonstruktion aus 2D-Bildern abgeleitet ist, und schlagen eine elegante und effiziente Lösung vor, indem wir eine 2D-Randführung integrieren, um die räumliche Verteilung von Gauß'schen Blobs signifikant zu verbessern, was zu einer klareren Unterscheidung zwischen Objekten und ihrem Hintergrund führt. Um das Problem (ii) anzugehen, schlagen wir eine Box-fokussierte Abtaststrategie unter Verwendung von 2D-Boxen vor, um die Objektwahrscheinlichkeitsverteilung im 3D-Raum zu generieren, was eine effektive probabilistische Abtastung in 3D ermöglicht, um mehr Objektblobs zu erhalten und rauschende Hintergrundblobs zu reduzieren. Durch unsere Entwürfe profitierend, übertrifft unser 3DGS-DET signifikant die SOTA NeRF-basierte Methode, NeRF-Det, und erzielt Verbesserungen von +6,6 bei mAP@0,25 und +8,1 bei mAP@0,5 für den ScanNet-Datensatz sowie beeindruckende +31,5 bei mAP@0,25 für den ARKITScenes-Datensatz.
Wir untersuchen die Tiefe der Problemlösungsfähigkeiten von Grundschulmathematik (GSM) von LLMs. Zu diesem Zweck bewerten wir ihre Leistung bei Paaren bestehender mathematischer Textaufgaben, bei denen die Antwort auf die zweite Aufgabe von der korrekten Beantwortung der ersten Aufgabe abhängt. Unsere Ergebnisse zeigen eine signifikante Denklücke bei den meisten LLMs auf, nämlich einen Leistungsunterschied zwischen der Lösung der zusammengesetzten Paare und der Lösung jeder Frage unabhängig voneinander. Diese Lücke ist bei kleineren, kostengünstigeren und auf Mathematik spezialisierten Modellen ausgeprägter. Darüber hinaus haben Anweisungsabstimmungsrezepte und Codegenerierung unterschiedliche Auswirkungen auf LLM-Größen, während Feinabstimmung auf GSM zu einer Aufgabenüberanpassung führen kann. Unsere Analyse deutet darauf hin, dass große Denklücken nicht auf Testset-Lecks zurückzuführen sind, sondern auf Ablenkung durch zusätzlichen Kontext und schlechtes Denken in der zweiten Stufe. Insgesamt zeigen LLMs systematische Unterschiede in ihren Denkfähigkeiten auf, unabhängig davon, was ihre Leistung auf Standard-Benchmarks nahelegt.
Bildreiche Bilder, bei denen Text als zentrales visuelles Element dient, um das Gesamtverständnis zu leiten, sind in realen Anwendungen weit verbreitet, wie z.B. Präsentationsfolien, gescannte Dokumente und Webseiten-Schnappschüsse. Aufgaben, die mehrere textreiche Bilder beinhalten, sind besonders anspruchsvoll, da sie nicht nur das Verständnis des Inhalts einzelner Bilder erfordern, sondern auch das Nachdenken über die Beziehungen und logischen Abläufe über mehrere visuelle Eingaben hinweg. Trotz der Bedeutung dieser Szenarien haben aktuelle multimodale große Sprachmodelle (MLLMs) Schwierigkeiten, solche Aufgaben zu bewältigen, aufgrund von zwei Hauptproblemen: (1) dem Mangel an hochwertigen Anleitungstuning-Datensätzen für textreiche Multi-Bild-Szenarien und (2) der Schwierigkeit, die Bildauflösung mit der Länge der visuellen Merkmalssequenz in Einklang zu bringen. Um diesen Herausforderungen zu begegnen, schlagen wir \OurMethod vor, ein MLLM, das speziell für die Bewältigung von Vision-Language-Aufgaben mit mehreren textreichen Bildern entwickelt wurde. Zunächst haben wir etwa eine Million hochwertige multimodale Anleitungstuning-Daten kuratiert, die auf textreiche, multi-Bild-Szenarien zugeschnitten sind. Zweitens haben wir ein adaptives Multi-Bild-Codierungsmodul mit hoher Auflösung entwickelt, um die Zuweisung der visuellen Sequenzlänge dynamisch zu optimieren, basierend auf den Original-Seitenverhältnissen und Auflösungen der Eingabebilder. Experimente über eine Vielzahl von Benchmarks zeigen die überlegenen Fähigkeiten unseres Modells bei textreichen, multi-Bild-Evaluationen und die wettbewerbsfähige Leistung bei allgemeinen Domänen-Evaluationen.
Belohnungsmodelle sind entscheidend, um Modelle darauf auszurichten, Anweisungen zu befolgen, und werden in der Regel gemäß eines der beiden beliebten Paradigmen trainiert: im Stil von Bradley-Terry oder im Regressionsstil. Es fehlt jedoch an Beweisen dafür, dass der eine Ansatz besser ist als der andere, wenn die Daten angemessen abgeglichen sind. Dies liegt hauptsächlich daran, dass diese Ansätze Daten erfordern, die in verschiedenen (aber inkompatiblen) Formaten gesammelt wurden, was bedeutet, dass angemessen abgeglichene Daten in vorhandenen öffentlichen Datensätzen nicht verfügbar sind. Um dieses Problem anzugehen, veröffentlichen wir Präferenzannotationen (entwickelt für das Bradley-Terry-Training), um vorhandene Bewertungen (entwickelt für das Regressionsstil-Training) im HelpSteer2-Datensatz zu ergänzen. Zur Verbesserung der Dateninterpretierbarkeit werden den Präferenzannotationen von Menschen verfasste Begründungen beigefügt. Unter Verwendung dieser Daten führen wir den ersten direkten Vergleich von Bradley-Terry- und Regressionsmodellen durch, wenn die Daten angemessen abgeglichen sind. Basierend auf Erkenntnissen aus einem solchen Vergleich schlagen wir einen neuartigen Ansatz vor, um Bradley-Terry- und Regressions-Belohnungsmodelle zu kombinieren. Ein mit diesem Ansatz abgestimmtes Llama-3.1-70B-Instruct-Modell erzielt auf RewardBench 94,1 Punkte und liegt damit am 1. Oktober 2024 an der Spitze von über 140 Belohnungsmodellen. Wir zeigen auch die Wirksamkeit dieses Belohnungsmodells bei der Ausrichtung von Modellen darauf, Anweisungen in RLHF zu befolgen. Wir stellen diesen Datensatz unter einer CC-BY-4.0-Lizenz auf https://huggingface.co/datasets/nvidia/HelpSteer2 als Open Source zur Verfügung und veröffentlichen das trainierte Belohnungsmodell unter https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward öffentlich.
Wir untersuchen LoRA im Bereich des föderierten Lernens durch die Analyse der Asymmetrie der erlernten A- und B-Matrizen. Dabei stellen wir fest, dass die A-Matrizen für das Erlernen von generellem Wissen verantwortlich sind, während die B-Matrizen darauf abzielen, kundenspezifisches Wissen zu erfassen. Basierend auf dieser Erkenntnis führen wir Federated Share-A Low-Rank Adaptation (FedSA-LoRA) ein, das zwei niedrigrangige trainierbare Matrizen A und B verwendet, um das Gewichtsupdate zu modellieren, wobei jedoch nur die A-Matrizen mit dem Server für die Aggregation geteilt werden. Darüber hinaus untersuchen wir die Beziehung zwischen den erlernten A- und B-Matrizen in anderen LoRA-Varianten wie rsLoRA und VeRA und enthüllen ein konsistentes Muster. Darauf aufbauend erweitern wir unsere FedSA-LoRA-Methode auf diese LoRA-Varianten, was zu FedSA-rsLoRA und FedSA-VeRA führt. Auf diese Weise etablieren wir ein allgemeines Paradigma zur Integration von LoRA mit FL und bieten damit Anleitung für zukünftige Arbeiten zu nachfolgenden LoRA-Varianten in Kombination mit FL. Umfangreiche experimentelle Ergebnisse zu Aufgaben im Bereich des Verständnisses und der Generierung natürlicher Sprache zeigen die Wirksamkeit der vorgeschlagenen Methode.
Die praktische Anwendung der Text-zu-Bild-Generierung hat sich von einfachen, monolithischen Modellen zu komplexen Workflows entwickelt, die mehrere spezialisierte Komponenten kombinieren. Während workflowbasierte Ansätze zu einer verbesserten Bildqualität führen können, erfordert die Erstellung effektiver Workflows erhebliche Expertise aufgrund der Vielzahl verfügbarer Komponenten, ihrer komplexen Interdependenz und ihrer Abhängigkeit von der Generierungsanforderung. Hier stellen wir die neuartige Aufgabe der prompt-adaptiven Workflow-Generierung vor, bei der das Ziel darin besteht, einen Workflow automatisch an jede Benutzeranforderung anzupassen. Wir schlagen zwei auf LLM basierende Ansätze zur Bewältigung dieser Aufgabe vor: eine auf Tuning basierende Methode, die aus Benutzerpräferenzdaten lernt, und eine trainingsfreie Methode, die den LLM verwendet, um vorhandene Abläufe auszuwählen. Beide Ansätze führen zu einer verbesserten Bildqualität im Vergleich zu monolithischen Modellen oder generischen, promptunabhängigen Workflows. Unsere Arbeit zeigt, dass die promptabhängige Flussvorhersage einen neuen Weg zur Verbesserung der Text-zu-Bild-Generierungsqualität bietet und bestehende Forschungsrichtungen auf diesem Gebiet ergänzt.
Neuronale Metriken zur Bewertung maschineller Übersetzungen (MT) sind aufgrund ihrer überlegenen Korrelation mit menschlichen Beurteilungen im Vergleich zu traditionellen lexikalischen Metriken zunehmend prominent geworden. Forscher haben daher neuronale Metriken durch qualitätsinformierte Dekodierungsstrategien genutzt, um bessere Ergebnisse als wahrscheinlichkeitsbasierte Methoden zu erzielen. Mit dem Aufkommen großer Sprachmodelle (LLMs) haben präferenzbasierte Ausrichtungstechniken aufgrund ihres Potenzials, die Übersetzungsqualität durch direkte Optimierung der Modellgewichte anhand von Präferenzen, die durch Qualitätschätzer induziert werden, Aufmerksamkeit erregt. Diese Studie konzentriert sich auf Kontrastive Präferenzoptimierung (CPO) und führt umfangreiche Experimente durch, um den Einfluss der präferenzbasierten Ausrichtung auf die Übersetzungsqualität zu bewerten. Unsere Ergebnisse deuten darauf hin, dass CPO im Hinblick auf das Ausrichtungsmaß auf hochwertigen Daten im Vergleich zu überwachtem Feintuning (SFT) konsistent bessere Leistungen erbringt, jedoch zu Instabilität bei nachgelagerten Bewertungsmetriken führen kann, insbesondere zwischen neuronalen und lexikalischen Metriken. Darüber hinaus zeigen wir, dass sich die ausschließliche Verwendung des Basismodells zur Generierung von Kandidatenübersetzungen eine vergleichbare Leistung im Vergleich zur Verwendung mehrerer externer Systeme erzielen lässt, wobei eine bessere Konsistenz bei nachgelagerten Metriken gewährleistet ist.
Der Aufstieg von Grundlagenmodellen (FMs), verbunden mit regulatorischen Bemühungen zur Bewältigung ihrer Risiken und Auswirkungen, hat ein großes Interesse an Open-Source-Modellen geweckt. Allerdings erfüllen bestehende Sprachgrundlagenmodelle (SFMs) nicht vollständig die Grundsätze des Open Source, auch wenn dies anders behauptet wird, da kein vorhandenes SFM Modellgewichte, Code und Trainingsdaten öffentlich unter Open-Source-Bedingungen zur Verfügung stellt. In dieser Arbeit gehen wir den ersten Schritt, um diese Lücke zu schließen, indem wir uns auf die 24 Amtssprachen der Europäischen Union (EU) konzentrieren. Wir sammeln geeignete Trainingsdaten, indem wir automatische Spracherkennungsdatensätze und nicht gekennzeichnete Sprachkorpora unter Open-Source-konformen Lizenzen untersuchen, insgesamt 950.000 Stunden. Zusätzlich veröffentlichen wir automatische Transkripte für 441.000 Stunden nicht gekennzeichneter Daten unter der freizügigen CC-BY-Lizenz, um die Erstellung von Open-Source-SFMs für die EU-Sprachen zu erleichtern.
Obwohl große Sprachmodelle (LLMs) außergewöhnliche Fähigkeiten bei der Verarbeitung komplexer Anfragen und der Durchführung anspruchsvoller Aufgaben gezeigt haben, sind ihre Verallgemeinerungsfähigkeiten oft eng mit dem Memorieren verflochten, was eine präzisere Bewertung erforderlich macht. Um diese Herausforderung anzugehen, stellen wir Scylla vor, ein dynamisches Bewertungsframework, das die Verallgemeinerungsfähigkeiten von LLMs quantitativ misst. Scylla entwirrt Verallgemeinerung von Memorierung, indem es die Leistung des Modells sowohl auf In-Distributions- (ID) als auch auf Out-of-Distributionsdaten (OOD) durch 20 Aufgaben über 5 Komplexitätsstufen hinweg bewertet. Durch umfangreiche Experimente decken wir eine nicht-monotone Beziehung zwischen Aufgabenkomplexität und der Leistungsdifferenz zwischen ID- und OOD-Daten auf, die wir als das Verallgemeinerungstal bezeichnen. Insbesondere zeigt dieses Phänomen eine kritische Schwelle - als kritische Komplexität bezeichnet - an, an der die Abhängigkeit von nicht verallgemeinerbaren Verhaltensweisen ihren Höhepunkt erreicht und die obere Grenze der Verallgemeinerungsfähigkeiten von LLMs anzeigt. Mit zunehmender Modellgröße verschiebt sich die kritische Komplexität in Richtung höherer Aufgabenkomplexität, was darauf hindeutet, dass größere Modelle komplexere Denkaufgaben bewältigen können, bevor sie übermäßig auf das Memorieren angewiesen sind. Durch die Nutzung von Scylla und des Konzepts der kritischen Komplexität bewerten wir 28 LLMs, darunter sowohl Open-Source-Modelle wie LLaMA und Qwen-Familien als auch Closed-Source-Modelle wie Claude und GPT, um eine robustere Bewertung zu ermöglichen und ein klareres Verständnis der Verallgemeinerungsfähigkeiten von LLMs zu etablieren.
Die Modellierung menschlicher Präferenzen ist entscheidend für die Ausrichtung von Grundlagenmodellen an menschlichen Werten. Traditionelle Belohnungsmodellierungsmethoden, wie das Bradley-Terry (BT) Belohnungsmodell, sind in ihrer Ausdruckskraft unzureichend, insbesondere bei der Behandlung von transitiven Präferenzen. Obwohl überwachte Paarpräferenzmodelle (PairPM) allgemeine Präferenzen ausdrücken können, ist ihre Implementierung sehr ad hoc und kann keine konsistente Präferenzwahrscheinlichkeit der verglichenen Paare garantieren. Darüber hinaus verursachen sie hohe Rechenkosten aufgrund ihrer quadratischen Abfragekomplexität bei Vergleichen von mehreren Antworten. In diesem Paper stellen wir das Präferenzrepräsentationslernen vor, einen Ansatz, der Antworten in einen latenten Raum einbettet, um komplexe Präferenzstrukturen effizient zu erfassen und eine lineare Abfragekomplexität zu erreichen. Zusätzlich schlagen wir die präferenzpunktbasierte General Preference Optimization (GPO) vor, die die belohnungsbasierte Verstärkungslernmethode aus menschlichem Feedback verallgemeinert. Experimentelle Ergebnisse zeigen, dass unser General Preference-Repräsentationsmodell (GPM) das BT-Belohnungsmodell auf dem RewardBench-Benchmark mit einem Vorsprung von bis zu 5,6% übertrifft und zyklische Präferenzen effektiv modelliert, bei denen jedes BT-Belohnungsmodell wie eine zufällige Vermutung agiert. Darüber hinaus zeigen Bewertungen bei nachgelagerten Aufgaben wie AlpacaEval2.0 und MT-Bench, nach dem Sprachmodell-Feinabstimmung mit GPO und unserem allgemeinen Präferenzmodell, signifikante Leistungsverbesserungen mit Vorsprüngen von bis zu 9,3%. Diese Ergebnisse deuten darauf hin, dass unsere Methode die Ausrichtung von Grundlagenmodellen an nuancierten menschlichen Werten verbessern könnte. Der Code ist verfügbar unter https://github.com/general-preference/general-preference-model.
Große Sprachmodelle haben ein signifikantes Potenzial als Informationszugriffsmaschinen der nächsten Generation gezeigt. Allerdings wird ihre Zuverlässigkeit durch Probleme wie Halluzinationen und die Generierung nicht-faktischer Inhalte beeinträchtigt. Dies ist besonders problematisch bei ausführlichen Antworten, bei denen die Bewertung und Sicherstellung der faktischen Genauigkeit komplex ist. In diesem Paper adressieren wir diese Lücke, indem wir FactAlign vorschlagen, ein neuartiges Ausrichtungsframework, das darauf abzielt, die Faktentreue der ausführlichen Antworten von LLMs zu verbessern, während ihre Hilfreichkeit erhalten bleibt. Wir stellen fKTO vor, einen feingliedrigen, auf Satzebene ausgerichteten Algorithmus, der die Kahneman-Tversky-Optimierung (KTO) Ausrichtungsmethode erweitert. Durch die Nutzung jüngster Fortschritte in der automatischen Faktentreuebewertung nutzt FactAlign feingliedrige Faktentreuebewertungen, um den Ausrichtungsprozess zu lenken. Unsere Experimente zu offenen Themenbereichen und informationsuchenden Fragen zeigen, dass FactAlign die faktische Genauigkeit von LLM-Antworten signifikant verbessert und gleichzeitig ihre Hilfreichkeit steigert. Weitere Analysen zeigen, dass FactAlign in der Lage ist, LLMs zu trainieren, um mehr Informationen bereitzustellen, ohne an faktischer Präzision zu verlieren, was wiederum den faktischen F1-Score verbessert. Unser Quellcode, Datensätze und trainierte Modelle sind öffentlich unter https://github.com/MiuLab/FactAlign verfügbar.
Wir präsentieren Exact Volumetric Ellipsoid Rendering (EVER), eine Methode für die echtzeitfähige differentielle Emissionsvolumenvisualisierung. Im Gegensatz zum kürzlich vorgestellten rasterisierungsbasierten Ansatz mittels 3D-Gauß-Splatting (3DGS) ermöglicht unsere primitive Darstellung eine exakte Volumenvisualisierung anstelle des Alpha-Kompositings von 3D-Gauß-Billboards. Daher leidet unsere Formulierung im Gegensatz zu 3DGS nicht unter Pop-Artefakten und dichtebasierten Ansichten, erreicht aber dennoch Bildraten von ca. 30 FPS bei 720p auf einer NVIDIA RTX4090. Da unser Ansatz auf dem Raytracing basiert, ermöglicht er Effekte wie Defokus-Unschärfe und Kameraverzerrung (z.B. von Fischaugenkameras), die mit Rasterisierung schwer zu erzielen sind. Wir zeigen, dass unsere Methode genauer ist und weniger Mischungsprobleme aufweist als 3DGS und die darauf folgenden Arbeiten zur ansichtskonsistenten Visualisierung, insbesondere in den anspruchsvollen großflächigen Szenen des Zip-NeRF-Datensatzes, wo sie die schärfsten Ergebnisse unter echtzeitfähigen Techniken erzielt.
Obwohl die jüngsten Fortschritte in der Text-to-Speech (TTS)-Technologie natürliche und ausdrucksstarke Sprache erzeugen, fehlt es ihnen an der Möglichkeit für Benutzer, Emotionen auszuwählen und die Intensität zu steuern. Wir schlagen EmoKnob vor, ein Framework, das eine fein abgestufte Emotionskontrolle in der Sprachsynthese mit wenigen Demonstrationsbeispielen beliebiger Emotionen ermöglicht. Unser Framework nutzt den ausdrucksstarken Sprecherrepräsentationsraum, der durch die jüngsten Fortschritte in Grundlagen-Voice-Cloning-Modellen ermöglicht wird. Basierend auf der Fähigkeit unseres Emotionskontroll-Frameworks, Emotionskontrolle auf Emotionen anzuwenden, die durch offenen Text beschrieben sind, schlagen wir zwei Methoden vor, um eine Emotionskontrolle auf Emotionen anzuwenden, die durch offenen Text beschrieben sind, und ermöglichen eine intuitive Benutzeroberfläche zur Steuerung einer vielfältigen Palette von nuancierten Emotionen. Um ein systematischeres Feld der emotionalen Sprachsynthese zu fördern, führen wir eine Reihe von Bewertungsmetriken ein, die darauf ausgelegt sind, die Treue und Erkennbarkeit von Emotionskontroll-Frameworks rigoros zu bewerten. Durch objektive und subjektive Bewertungen zeigen wir, dass unser Emotionskontroll-Framework Emotionen effektiv in die Sprache einbettet und die Emotionsausdrucksfähigkeit kommerzieller TTS-Dienste übertrifft.
In den letzten Fortschritten bei Video Large Language Models (Video-LLMs) wurde ihr großes Potenzial bei der allgemeinen Videoverarbeitung gezeigt. Zur Bestätigung der Bedeutung dieser Modelle wurden mehrere Benchmarks vorgeschlagen, um ihre Fähigkeiten in verschiedenen Szenarien zu diagnostizieren. Allerdings bewerten bestehende Benchmarks Modelle lediglich durch Video-Level Frage-Antwort, wobei eine feinkörnige Ereignis-Level Bewertung und Aufgabenvielfalt fehlen. Um diese Lücke zu schließen, stellen wir E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark) vor, einen groß angelegten und qualitativ hochwertigen Benchmark für offene Ereignis-Level Videoverarbeitung. Kategorisiert in einer 3-stufigen Aufgaben-Taxonomie, umfasst E.T. Bench 7,3K Beispiele in 12 Aufgaben mit 7K Videos (insgesamt 251,4 Stunden Länge) in 8 Domänen und bietet umfassende Bewertungen. Wir haben 8 Image-LLMs und 12 Video-LLMs ausführlich auf unserem Benchmark evaluiert, und die Ergebnisse zeigen, dass State-of-the-Art-Modelle für grobe (Video-Level) Verständnis Schwierigkeiten haben, unsere feinkörnigen Aufgaben zu lösen, z.B. das Verankern von Interessensereignissen in Videos, hauptsächlich aufgrund der kurzen Videokontextlänge, unzureichender Zeitdarstellungen und fehlender Trainingsdaten für Multi-Ereignisse. Indem wir uns auf diese Probleme konzentrieren, schlagen wir ein starkes Basismodell, E.T. Chat, zusammen mit einem Anweisungsabstimmungsdatensatz E.T. Instruct 164K für feinkörniges Ereignis-Level Verständnis vor. Unsere einfache, aber effektive Lösung zeigt überlegene Leistung in mehreren Szenarien.
Große Sprachmodelle zeichnen sich durch kreative Generierung aus, haben jedoch weiterhin mit den Problemen der Halluzination und Voreingenommenheit zu kämpfen. Während die abrufgestützte Generierung (RAG) einen Rahmen für die Verankerung der Antworten von LLMs in genauen und aktuellen Informationen bietet, wirft sie dennoch die Frage der Voreingenommenheit auf: Welche Quellen sollten für die Einbeziehung in den Kontext ausgewählt werden? Und wie sollte ihre Bedeutung gewichtet werden? In diesem Papier untersuchen wir die Herausforderung der cross-lingualen RAG und stellen einen Datensatz vor, um die Robustheit bestehender Systeme bei der Beantwortung von Anfragen zu geopolitischen Streitigkeiten zu untersuchen, die an der Schnittstelle von linguistischen, kulturellen und politischen Grenzen liegen. Unser Datensatz stammt aus Wikipedia-Seiten mit relevanten Informationen zu den gegebenen Anfragen, und wir untersuchen die Auswirkungen der Einbeziehung zusätzlicher Kontexte sowie die Zusammensetzung dieses Kontextes in Bezug auf Sprache und Quelle auf die Antwort eines LLMs. Unsere Ergebnisse zeigen, dass bestehende RAG-Systeme weiterhin von cross-lingualen Anwendungsfällen herausgefordert werden und unter einem Mangel an Konsistenz leiden, wenn sie mit konkurrierenden Informationen in mehreren Sprachen versorgt werden. Wir präsentieren Fallstudien, um diese Probleme zu veranschaulichen, und skizzieren Schritte für zukünftige Forschung, um diese Herausforderungen anzugehen. Wir stellen unseren Datensatz und den Code öffentlich unter https://github.com/manestay/bordIRlines zur Verfügung.
Vision-Language-Modelle (VLMs) sind entscheidend für das kontextuelle Verständnis von visuellen und textuellen Informationen. Allerdings birgt ihre Anfälligkeit für adversarial manipulierte Eingaben erhebliche Risiken, die zu beeinträchtigten Ergebnissen führen und Bedenken hinsichtlich der Zuverlässigkeit von VLM-integrierten Anwendungen aufwerfen. Die Erkennung dieser bösartigen Eingaben ist daher entscheidend, um das Vertrauen in die VLM-Generierungen aufrechtzuerhalten. Eine große Herausforderung bei der Entwicklung eines Schutzpromptklassifizierers besteht in dem Mangel an einer großen Menge an gekennzeichneten gutartigen und bösartigen Daten. Um dieses Problem anzugehen, stellen wir VLMGuard vor, ein neuartiges Lernframework, das die nicht gekennzeichneten Benutzerprompts in freier Wildbahn zur bösartigen Prompterkennung nutzt. Diese nicht gekennzeichneten Prompts, die natürlich auftreten, wenn VLMs in der realen Welt eingesetzt werden, bestehen aus sowohl gutartigen als auch bösartigen Informationen. Um die nicht gekennzeichneten Daten zu nutzen, präsentieren wir einen automatisierten Schätzwert für die Bösartigkeit zur Unterscheidung zwischen gutartigen und bösartigen Proben innerhalb dieser nicht gekennzeichneten Mischung, wodurch das Training eines binären Promptklassifizierers ermöglicht wird. Bemerkenswert ist, dass unser Framework keine zusätzlichen menschlichen Annotationen erfordert und eine hohe Flexibilität und Praktikabilität für Anwendungen in der realen Welt bietet. Umfangreiche Experimente zeigen, dass VLMGuard überlegene Erkennungsergebnisse erzielt und deutlich besser abschneidet als aktuelle Methoden. Haftungsausschluss: Dieses Papier kann anstößige Beispiele enthalten; Leserinnen und Leser werden um Diskretion gebeten.
Diffusions-Transformer (DiTs) haben aufgrund ihrer hervorragenden Skalierbarkeit und außergewöhnlichen Leistungsfähigkeit bei generativen Aufgaben an Bedeutung gewonnen. Die beträchtlichen Inferenzkosten behindern jedoch die praktische Anwendung. Der Merkmalscache-Mechanismus, der das Speichern und Abrufen redundanter Berechnungen über Zeitschritte hinweg beinhaltet, verspricht, die Inferenzzeit pro Schritt bei Diffusionsmodellen zu reduzieren. Die meisten bestehenden Caching-Methoden für DiT sind manuell entworfen. Obwohl der lernbasierte Ansatz versucht, Strategien adaptiv zu optimieren, leidet er unter Diskrepanzen zwischen Training und Inferenz, was sowohl die Leistung als auch das Beschleunigungsverhältnis beeinträchtigt. Nach einer detaillierten Analyse identifizieren wir, dass diese Diskrepanzen hauptsächlich aus zwei Aspekten resultieren: (1) Vernachlässigung des vorherigen Zeitschritts, bei dem das Training die Auswirkung der Cache-Nutzung in früheren Zeitschritten ignoriert, und (2) Zielabweichung, bei der das Trainingsziel (Anpassung des vorhergesagten Rauschens in jedem Zeitschritt) vom Ziel der Inferenz (Erzeugung des hochwertigen Bildes) abweicht. Um diese Diskrepanzen zu mildern, schlagen wir HarmoniCa vor, eine neuartige Methode, die das Training und die Inferenz mit einem neuartigen lernbasierten Caching-Framework harmonisiert, das auf dem schrittweisen Rauschunterdrückungstraining (SDT) und dem bildfehlergeführten Ziel (IEPO) basiert. Im Vergleich zum traditionellen Trainingsparadigma erhält das neu vorgeschlagene SDT die Kontinuität des Rauschunterdrückungsprozesses aufrecht, was es dem Modell ermöglicht, Informationen aus vorherigen Zeitschritten während des Trainings zu nutzen, ähnlich wie es während der Inferenz funktioniert. Darüber hinaus entwerfen wir IEPO, das einen effizienten Proxy-Mechanismus integriert, um den endgültigen Bildfehler zu approximieren, der durch die Wiederverwendung des gecachten Merkmals verursacht wird. Daher hilft IEPO, die Balance zwischen der endgültigen Bildqualität und der Cache-Nutzung herzustellen und das Problem des Trainings zu lösen, das nur die Auswirkung der Cache-Nutzung auf die vorhergesagte Ausgabe in jedem Zeitschritt berücksichtigt.
Im Bestreben, autonome Roboter zu Handlungen zu veranlassen, ist die Aufgabenplanung eine große Herausforderung, die die Übersetzung von hochrangigen Aufgabenbeschreibungen in langfristige Aktionssequenzen erfordert. Trotz der jüngsten Fortschritte bei Sprachmodell-Agenten sind sie anfällig für Planungsfehler und eingeschränkt in ihrer Fähigkeit, vorauszuplanen. Um diese Einschränkungen in der robotischen Planung zu bewältigen, befürworten wir ein selbstverfeinerndes Schema, das einen Entwurfsplan iterativ verfeinert, bis ein Gleichgewicht erreicht ist. Bemerkenswerterweise kann dieser Prozess aus einer analytischen Perspektive end-to-end optimiert werden, ohne dass zusätzliche Verifizierer oder Belohnungsmodelle kuratiert werden müssen, was es uns ermöglicht, selbstverfeinernde Planer auf einfache Weise im Rahmen des überwachten Lernens zu trainieren. Gleichzeitig wird ein verschachteltes Gleichgewichtssequenzmodellierungsverfahren für eine effiziente Closed-Loop-Planung entwickelt, das nützliches Feedback aus der Umgebung (oder einem internen Weltmodell) einbezieht. Unsere Methode wird am VirtualHome-Env-Benchmark evaluiert, was eine fortschrittliche Leistung mit besserer Skalierung für Inferenzberechnungen zeigt. Der Code ist verfügbar unter https://github.com/Singularity0104/equilibrium-planner.
Deep-Learning-Optimierer werden oft durch eine Mischung aus konvexer und approximativer Theorie zweiter Ordnung motiviert. Wir wählen drei solcher Methoden - Adam, Shampoo und Prodigy - und argumentieren, dass jede Methode stattdessen als eine klar erstmalige Methode ohne Konvexitätsannahmen verstanden werden kann. Tatsächlich sind nach dem Ausschalten der exponentiellen gleitenden Durchschnitte jede Methode äquivalent zu steilstem Abstieg unter einer bestimmten Norm. Durch Verallgemeinerung dieser Beobachtung skizzieren wir einen neuen Entwurfsraum für Trainingsalgorithmen. Unterschiedlichen Operatornormen sollten verschiedenen Tensoren basierend auf der Rolle, die der Tensor im Netzwerk spielt, zugeordnet werden. Zum Beispiel können lineare und Einbettungsschichten zwar den gleichen Gewichtsraum von R^{m mal n} haben, spielen jedoch unterschiedliche Rollen und sollten unterschiedliche Normen zugewiesen bekommen. Wir hoffen, dass diese Idee der sorgfältigen Metrizierung der neuronalen Architektur zu stabilerem, skalierbarem und tatsächlich schnellerem Training führen könnte.
Die Handhabung langer Eingabekontexte bleibt eine bedeutende Herausforderung für große Sprachmodelle (LLMs), insbesondere in ressourcenbeschränkten Umgebungen wie mobilen Geräten. Unsere Arbeit zielt darauf ab, diese Einschränkung durch die Einführung von InfiniPot, einem neuartigen KV-Cache-Steuerungsrahmen, der es vortrainierten LLMs ermöglicht, umfangreiche Sequenzen innerhalb fester Speicherbeschränkungen effizient zu verwalten, ohne zusätzliches Training zu erfordern, zu adressieren. InfiniPot nutzt die Kontinuierliche Kontextdestillation (CCD), ein iteratives Verfahren, das wesentliche Informationen durch neuartige Wichtigkeitsmetriken komprimiert und bewahrt, um kritische Daten effektiv zu erhalten, selbst ohne Zugriff auf zukünftigen Kontext. Unsere umfassenden Bewertungen zeigen, dass InfiniPot in verschiedenen NLP-Aufgaben signifikant besser abschneidet als Modelle, die für lange Kontexte trainiert wurden, und damit seine Wirksamkeit und Vielseitigkeit unterstreichen. Diese Arbeit stellt einen bedeutenden Fortschritt dar, um LLMs für eine breitere Palette realer Szenarien anwendbar zu machen.
Die systematische Bewertung von Sprachtrennungs- und -verbesserungsmodellen unter Bedingungen mit sich bewegenden Schallquellen erfordert in der Regel umfangreiche Daten, die verschiedene Szenarien umfassen. Allerdings enthalten realitätsnahe Datensätze oft nicht genügend Daten, um die Schulungs- und Bewertungsanforderungen der Modelle zu erfüllen. Obwohl synthetische Datensätze eine größere Datenmenge bieten, fehlt es ihren akustischen Simulationen an Realismus. Folglich erfüllen weder realitätsnahe noch synthetische Datensätze effektiv praktische Anforderungen. Um diese Probleme zu lösen, stellen wir SonicSim vor, ein synthetisches Toolkit, das entwickelt wurde, um hochgradig anpassbare Daten für sich bewegende Schallquellen zu generieren. SonicSim basiert auf der verkörperten KI-Simulationsplattform Habitat-sim und unterstützt mehrstufige Anpassungen, einschließlich Szenenebene, Mikrofonebene und Quellenebene, um so vielfältigere synthetische Daten zu generieren. Unter Verwendung von SonicSim haben wir einen Benchmark-Datensatz für sich bewegende Schallquellen, SonicSet genannt, erstellt, indem wir Librispeech, den Freesound-Datensatz 50k (FSD50K) und das Free Music Archive (FMA) sowie 90 Szenen aus dem Matterport3D verwendet haben, um Sprachtrennungs- und -verbesserungsmodelle zu bewerten. Zusätzlich haben wir zur Validierung der Unterschiede zwischen synthetischen Daten und realitätsnahen Daten 5 Stunden Rohdaten ohne Hall aus dem Validierungsdatensatz von SonicSet zufällig ausgewählt, um einen realitätsnahen Datensatz für die Sprachtrennung aufzuzeichnen, der dann mit den entsprechenden synthetischen Datensätzen verglichen wurde. Ebenso haben wir den realitätsnahen Datensatz für die Sprachverbesserung RealMAN genutzt, um die akustische Kluft zwischen anderen synthetischen Datensätzen und dem SonicSet-Datensatz für die Sprachverbesserung zu validieren. Die Ergebnisse zeigen, dass die von SonicSim generierten synthetischen Daten effektiv auf realitätsnahe Szenarien verallgemeinert werden können. Eine Demo und der Code sind öffentlich unter https://cslikai.cn/SonicSim/ verfügbar.