Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der rasante Fortschritt von Large Language Models (LLMs) hat bemerkenswerte Fortschritte bei komplexen Schlussfolgerungsaufgaben gezeigt. Dennoch besteht weiterhin eine signifikante Diskrepanz zwischen den Leistungen in Benchmarks und realen Anwendungen. Wir identifizieren diese Kluft hauptsächlich als Ergebnis der aktuellen Evaluationsprotokolle und Metriken, die das gesamte Spektrum der LLM-Fähigkeiten unzureichend erfassen, insbesondere bei komplexen Schlussfolgerungsaufgaben, bei denen Genauigkeit und Konsistenz gleichermaßen entscheidend sind. Diese Arbeit leistet zwei wesentliche Beiträge. Erstens führen wir G-Pass@k ein, eine neuartige Evaluierungsmetrik, die eine kontinuierliche Bewertung der Modellleistung über mehrere Stichprobenversuche hinweg bietet und sowohl das Spitzenleistungspotenzial des Modells als auch seine Stabilität quantifiziert. Zweitens präsentieren wir LiveMathBench, einen dynamischen Benchmark, der anspruchsvolle, zeitgenössische mathematische Probleme umfasst, die darauf abzielen, das Risiko von Datenlecks während der Evaluation zu minimieren. Durch umfangreiche Experimente mit G-Pass@k an hochmodernen LLMs mit LiveMathBench liefern wir umfassende Einblicke sowohl in ihre maximalen Fähigkeiten als auch in ihre Betriebskonsistenz. Unsere Ergebnisse zeigen erheblichen Verbesserungsbedarf bei den "realistischen" Schlussfolgerungsfähigkeiten von LLMs auf und unterstreichen die Notwendigkeit robusterer Evaluierungsmethoden. Der Benchmark und detaillierte Ergebnisse sind verfügbar unter: https://github.com/open-compass/GPassK.
Als typische und praktische Anwendung von Large Language Models (LLMs) haben Retrieval-Augmented Generation (RAG)-Techniken umfangreiche Aufmerksamkeit erlangt, insbesondere in vertikalen Domänen, in denen LLMs möglicherweise über kein domänenspezifisches Wissen verfügen. In diesem Papier stellen wir einen omnidirektionalen und automatischen RAG-Benchmark, OmniEval, im Finanzbereich vor. Unser Benchmark zeichnet sich durch sein multidimensionales Bewertungsrahmenwerk aus, das (1) ein matrixbasiertes RAG-Szenariobewertungssystem umfasst, das Anfragen in fünf Aufgabenklassen und 16 Finanzthemen kategorisiert, was zu einer strukturierten Bewertung verschiedener Anfrageszenarien führt; (2) einen multidimensionalen Bewertungsdatengenerierungsansatz, der auf automatischer Generierung basierend auf GPT-4 und menschlicher Annotation kombiniert, wodurch ein Akzeptanzverhältnis von 87,47\% in menschlichen Bewertungen von generierten Instanzen erreicht wird; (3) ein mehrstufiges Bewertungssystem, das sowohl die Leistung bei der Rückgewinnung als auch bei der Generierung bewertet, was zu einer umfassenden Bewertung des RAG-Pipelines führt; und (4) robuste Bewertungsmetriken, die aus regelbasierten und LLM-basierten abgeleitet sind, wodurch die Zuverlässigkeit von Bewertungen durch manuelle Annotationen und überwachtes Feintuning eines LLM-Bewerters verbessert wird. Unsere Experimente zeigen die Umfassendheit von OmniEval auf, die umfangreiche Testdatensätze umfasst und die Leistungsunterschiede von RAG-Systemen über verschiedene Themen und Aufgaben hinweg hervorhebt, wodurch signifikante Möglichkeiten für RAG-Modelle aufgezeigt werden, ihre Fähigkeiten in vertikalen Domänen zu verbessern. Wir stellen den Code unseres Benchmarks als Open Source unter https://github.com/RUC-NLPIR/OmniEval zur Verfügung.
Das sich schnell entwickelnde Gebiet der großen multimodalen Modelle (LMMs) hat zur Entstehung verschiedener Modelle mit bemerkenswerten Fähigkeiten geführt. Allerdings versagen bestehende Benchmarks dabei, umfassend, objektiv und genau zu bewerten, ob LMMs mit den vielfältigen Bedürfnissen von Menschen in realen Szenarien übereinstimmen. Um diese Lücke zu schließen, schlagen wir den Multi-Dimensional Insights (MDI) Benchmark vor, der über 500 Bilder umfasst, die sechs gängige Szenarien des menschlichen Lebens abdecken. Bemerkenswert ist, dass der MDI-Benchmark zwei signifikante Vorteile gegenüber bestehenden Bewertungen bietet: (1) Jedes Bild wird von zwei Arten von Fragen begleitet: einfachen Fragen, um das Verständnis des Modells für das Bild zu bewerten, und komplexen Fragen, um die Fähigkeit des Modells zu analysieren und über den grundlegenden Inhalt hinaus zu argumentieren. (2) Da Menschen unterschiedlichen Alters unterschiedliche Bedürfnisse und Perspektiven haben, wenn sie mit demselben Szenario konfrontiert werden, unterteilt unser Benchmark die Fragen in drei Alterskategorien: junge Menschen, mittelalte Menschen und ältere Menschen. Dieses Design ermöglicht eine detaillierte Bewertung der Fähigkeiten von LMMs, die Präferenzen und Bedürfnisse verschiedener Altersgruppen zu erfüllen. Mit dem MDI-Benchmark erreicht ein leistungsstarkes Modell wie GPT-4o eine Genauigkeit von 79% bei altersbezogenen Aufgaben, was darauf hindeutet, dass bestehende LMMs noch erhebliches Verbesserungspotenzial bei der Bewältigung realer Anwendungen haben. In Zukunft erwarten wir, dass der MDI-Benchmark neue Wege für die Ausrichtung der Personalisierung in LMMs im realen Leben eröffnen wird. Die MDI-Benchmark-Daten und Evaluationscode sind unter https://mdi-benchmark.github.io/ verfügbar.
Die Decodierung mittels Ketten-Gedanken (CoT) ermöglicht es Sprachmodellen, die Schlussfolgerungsleistung zu verbessern, jedoch auf Kosten einer hohen Generierungslatenz bei der Decodierung. In jüngsten Vorschlägen wurden Varianten von Betrachtungs-Token untersucht, ein Begriff, den wir einführen, der sich auf spezielle Token bezieht, die während der Inferenz verwendet werden, um zusätzliche Berechnungen zu ermöglichen. Frühere Arbeiten haben festlängige Sequenzen aus einem diskreten Satz von Einbettungen als Betrachtungs-Token betrachtet. Hier schlagen wir Compressed Chain-of-Thought (CCoT) vor, ein Rahmenwerk zur Generierung gehaltvoller und kontinuierlicher Betrachtungs-Token variabler Sequenzlänge. Die generierten Betrachtungs-Token sind komprimierte Darstellungen expliziter Schlussfolgerungsketten, und unsere Methode kann auf Decoder-Sprachmodelle von der Stange angewendet werden. Durch Experimente veranschaulichen wir, wie CCoT zusätzliche Schlussfolgerungen über dichte gehaltvolle Darstellungen ermöglicht, um entsprechende Verbesserungen in der Genauigkeit zu erzielen. Darüber hinaus können die Schlussfolgerungsverbesserungen durch Steuerung der Anzahl der generierten Betrachtungs-Token bedarfsgerecht angepasst werden.
Menschen destillieren komplexe Erfahrungen in grundlegende Abstraktionen, die schnelles Lernen und Anpassung ermöglichen. Ebenso zeigen autoregressive Transformer adaptives Lernen durch In-Context Learning (ICL), was die Frage aufwirft, wie das geschieht. In diesem Paper schlagen wir einen Konzeptkodierungs-Dekodierungsmechanismus vor, um das ICL zu erklären, indem wir untersuchen, wie Transformer interne Abstraktionen in ihren Repräsentationen bilden und nutzen. Anhand synthetischer ICL-Aufgaben analysieren wir die Trainingsdynamik eines kleinen Transformers und berichten über das gleichzeitige Entstehen von Konzeptkodierung und -dekodierung. Während das Modell lernt, verschiedene latente Konzepte (z.B. "Das erste Nomen in einem Satz finden.") in unterschiedliche, trennbare Repräsentationen zu kodieren, baut es gleichzeitig bedingte Dekodierungsalgorithmen auf und verbessert seine ICL-Performance. Wir validieren die Existenz dieses Mechanismus in vortrainierten Modellen unterschiedlicher Größenordnungen (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Darüber hinaus zeigen wir durch mechanistische Interventionen und kontrolliertes Feintuning, dass die Qualität der Konzeptkodierung kausal mit der ICL-Performance zusammenhängt und diese vorhersagen kann. Unsere empirischen Erkenntnisse tragen dazu bei, das Verständnis der Erfolgs- und Fehlermodi großer Sprachmodelle über deren Repräsentationen zu verbessern.
Das Verständnis von Informationen aus einer Sammlung mehrerer Dokumente, insbesondere solcher mit visuell reichen Elementen, ist für die belegbasierte Fragebeantwortung von Bedeutung. Diese Arbeit stellt VisDoMBench vor, den ersten umfassenden Benchmark, der entwickelt wurde, um QA-Systeme in mehrdokumentigen Umgebungen mit reichhaltigen multimodalen Inhalten wie Tabellen, Diagrammen und Präsentationsfolien zu bewerten. Wir schlagen VisDoMRAG vor, einen neuartigen multimodalen Retrieval Augmented Generation (RAG)-Ansatz vor, der gleichzeitig visuelles und textuelles RAG nutzt und robuste visuelle Abrufmöglichkeiten mit anspruchsvoller sprachlicher Argumentation kombiniert. VisDoMRAG verwendet einen mehrstufigen Argumentationsprozess, der die Beweissammlung und das Denken in Zusammenhängen für gleichzeitige textuelle und visuelle RAG-Pipelines umfasst. Eine Schlüsselneuheit von VisDoMRAG ist sein konsistenzbeschränkter Modalitätsfusionsmechanismus, der die Argumentationsprozesse über Modalitäten hinweg zur Inferenzzeit ausrichtet, um eine kohärente endgültige Antwort zu erzeugen. Dies führt zu einer verbesserten Genauigkeit in Szenarien, in denen wichtige Informationen über Modalitäten verteilt sind, und zu einer verbesserten Überprüfbarkeit der Antwort durch implizite Kontextzuweisung. Durch umfangreiche Experimente mit Open-Source- und proprietären großen Sprachmodellen bewerten wir state-of-the-art Dokument-QA-Methoden auf VisDoMBench. Umfangreiche Ergebnisse zeigen, dass VisDoMRAG unimodale und langkontextuelle LLM-Baselines für end-to-end multimodale Dokument-QA um 12-20% übertrifft.
Neuere Arbeiten zur Beschleunigung von Vision-Language-Modellen zeigen, dass trotz einer starken Komprimierung visueller Informationen eine hohe Leistungsfähigkeit über eine Vielzahl von Vision-Language-Aufgaben aufrechterhalten werden kann. In dieser Arbeit untersuchen wir den beliebten Beschleunigungsansatz des frühzeitigen Beschneidens von visuellen Tokens innerhalb des Sprachmodells und stellen fest, dass seine starke Leistungsfähigkeit bei vielen Aufgaben nicht auf einer außergewöhnlichen Fähigkeit zur Komprimierung visueller Informationen beruht, sondern vielmehr auf der begrenzten Fähigkeit der Benchmarks, feingranulare visuelle Fähigkeiten zu bewerten. Insbesondere zeigen wir ein Kernproblem des Beschleunigungsansatzes, bei dem die meisten Tokens oben im Bild abgeschnitten werden. Dieses Problem spiegelt sich jedoch nur bei einer kleinen Teilmenge von Aufgaben wie der Lokalisierung in der Leistung wider. Für die anderen bewerteten Aufgaben wird die starke Leistungsfähigkeit mit der fehlerhaften Beschneidungsstrategie aufrechterhalten. Angesichts der begrenzten visuellen Fähigkeiten der untersuchten Beschleunigungstechnik schlagen wir FEATHER (Schnelle und effektive Beschleunigung mit Ensemble-Kriterien) vor, einen einfachen Ansatz, der (1) das identifizierte Problem des frühzeitigen Beschneidens in den unteren Ebenen löst, (2) eine gleichmäßige Stichprobenahme integriert, um eine Abdeckung aller Bildbereiche sicherzustellen, und (3) das Beschneiden in zwei Stufen anwendet, um die Kriterien in einer späteren Ebene effektiver zu machen, während gleichzeitig eine signifikante Beschleunigung durch frühzeitiges Beschneiden erreicht wird. Bei vergleichbaren Recheneinsparungen stellen wir fest, dass FEATHER im Vergleich zum ursprünglichen Beschleunigungsansatz eine mehr als 5-fache Leistungsverbesserung bei den auf Vision ausgerichteten Lokalisierungs-Benchmarks aufweist.
Die Vision eines breit fähigen und zielgerichteten Agenten, wie beispielsweise eines Internet-Browsing-Agenten in der digitalen Welt und eines humanoiden Haushaltsroboters in der physischen Welt, hat dank der Generalisierungsfähigkeit von Grundlagenmodellen rasante Fortschritte gemacht. Ein solcher Generalist-Agent muss über ein großes und vielfältiges Fähigkeitenrepertoire verfügen, wie beispielsweise das Finden von Wegbeschreibungen zwischen zwei Reisezielen und den Kauf spezifischer Artikel im Internet. Wenn jede Fähigkeit manuell durch einen festen Satz von menschlich annotierten Anweisungen spezifiziert werden muss, wird das Fähigkeitenrepertoire des Agenten aufgrund der Menge und Vielfalt der menschlich annotierten Anweisungen zwangsläufig begrenzt sein. In dieser Arbeit gehen wir diese Herausforderung an, indem wir den Proposer-Agent-Evaluator vorschlagen, ein effektives Lernsystem, das es Grundlagenmodell-Agenten ermöglicht, Fähigkeiten eigenständig in der Wildnis zu entdecken und zu trainieren. Im Zentrum von PAE steht ein kontextbewusster Aufgabensteller, der eigenständig Aufgaben vorschlägt, die der Agent mit Kontextinformationen der Umgebung wie Benutzerdemonstrationen oder sogar nur dem Namen der Website selbst für Internet-Browsing-Agenten üben soll. Anschließend versucht die Agentenrichtlinie diese Aufgaben mit Gedanken und tatsächlichen Operationen in der realen Welt, wobei die resultierenden Trajektorien von einem autonomen VLM-basierten Erfolgsevaluator bewertet werden. Die Erfolgsbewertung dient als Belohnungssignal für den Agenten, um seine Richtlinien durch RL zu verfeinern. Wir validieren PAE anhand einer anspruchsvollen visionbasierten Webnavigation, unter Verwendung von sowohl realen als auch selbstgehosteten Websites von WebVoyager und WebArena. Unseres Wissens nach stellt diese Arbeit das erste effektive Lernsystem dar, das autonome Aufgabenvorschläge mit RL für Agenten anwendet, die reale menschlich annotierte Benchmarks mit SOTA-Leistungen generalisieren. Unsere Open-Source-Checkpoints und der Code sind unter https://yanqval.github.io/PAE/ verfügbar.
Die Tiefenabschlussmethode verbessert spärliche Tiefenmessungen zu dichten Tiefenkarten, die von einem konventionellen Bild geleitet werden. Bestehende Methoden für diese stark schlecht gestellte Aufgabe arbeiten in eng begrenzten Einstellungen und haben Schwierigkeiten, wenn sie auf Bilder außerhalb des Trainingsbereichs angewendet werden oder wenn die verfügbaren Tiefenmessungen spärlich, unregelmäßig verteilt oder unterschiedlich dicht sind. Inspiriert von den jüngsten Fortschritten in der monokularen Tiefenschätzung, formulieren wir den Tiefenabschluss als eine bildbedingte Tiefenkarten-Generierung, die von spärlichen Messungen geleitet wird. Unsere Methode, Marigold-DC, baut auf einem vorab trainierten latenten Diffusionsmodell für monokulare Tiefenschätzung auf und injiziert die Tiefenbeobachtungen als Testzeit-Hilfe über ein Optimierungsschema, das parallel zur iterativen Inferenz der Rauschunterdrückungs-Diffusion läuft. Die Methode zeigt eine ausgezeichnete Generalisierung ohne vorheriges Training über eine vielfältige Palette von Umgebungen und bewältigt sogar extrem spärliche Anleitungen effektiv. Unsere Ergebnisse legen nahe, dass zeitgenössische monokulare Tiefenprioritäten den Tiefenabschluss erheblich robuster machen: Es könnte besser sein, die Aufgabe als Wiederherstellung dichter Tiefe aus (dichten) Bildpixeln zu betrachten, geleitet von spärlicher Tiefe; anstatt als Auffüllen (spärlicher) Tiefe, geleitet von einem Bild. Projektwebsite: https://MarigoldDepthCompletion.github.io/
In der Softwareentwicklung der realen Welt können falsche oder fehlende Ausnahmebehandlungen die Robustheit und Zuverlässigkeit des Codes erheblich beeinträchtigen. Mechanismen zur Ausnahmebehandlung erfordern von Entwicklern, Ausnahmen gemäß hoher Standards zu erkennen, zu erfassen und zu verwalten, doch viele Entwickler haben Schwierigkeiten mit diesen Aufgaben, was zu fragilen Codes führt. Dieses Problem ist besonders in Open-Source-Projekten offensichtlich und beeinflusst die Gesamtqualität des Software-Ökosystems. Um dieser Herausforderung zu begegnen, untersuchen wir den Einsatz großer Sprachmodelle (LLMs) zur Verbesserung der Ausnahmebehandlung im Code. Durch umfangreiche Analysen identifizieren wir drei Schlüsselprobleme: Unempfindliche Erkennung von fragilen Codes, ungenaue Erfassung des Ausnahmeblocks und verzerrte Lösungen bei der Behandlung. Diese Probleme sind in realen Repositories weit verbreitet, was darauf hindeutet, dass robuste Praktiken bei der Ausnahmebehandlung oft übersehen oder falsch gehandhabt werden. Als Antwort schlagen wir Seeker vor, ein Multi-Agenten-Framework, das von Strategien erfahrener Entwickler für die Ausnahmebehandlung inspiriert ist. Seeker verwendet Agenten: Scanner, Detector, Predator, Ranker und Handler, um LLMs dabei zu unterstützen, Ausnahmen effektiver zu erkennen, zu erfassen und zu lösen. Unsere Arbeit ist die erste systematische Studie zur Nutzung von LLMs zur Verbesserung von Praktiken bei der Ausnahmebehandlung in realen Entwicklungsszenarien und liefert wertvolle Erkenntnisse für zukünftige Verbesserungen in der Code-Zuverlässigkeit.
Wir präsentieren SUGAR, eine Zero-Shot-Methode zur anwendergesteuerten Anpassung von Videos. Anhand eines Eingabebildes ist SUGAR in der Lage, Videos für das im Bild enthaltene Motiv zu generieren und die Generierung mit beliebigen visuellen Attributen wie Stil und Bewegung auszurichten, die durch benutzerdefinierten Text spezifiziert sind. Im Gegensatz zu früheren Methoden, die Feinabstimmung zur Testzeit erfordern oder nicht in der Lage sind, textausgerichtete Videos zu generieren, erzielt SUGAR überlegene Ergebnisse, ohne zusätzliche Kosten zur Testzeit zu benötigen. Um die Zero-Shot-Fähigkeit zu ermöglichen, führen wir eine skalierbare Pipeline ein, um ein synthetisches Datenset zu erstellen, das speziell für anwendergesteuerte Anpassungen konzipiert ist und zu 2,5 Millionen Bild-Video-Text-Tripeln führt. Darüber hinaus schlagen wir mehrere Methoden vor, um unser Modell zu verbessern, einschließlich spezieller Aufmerksamkeitsdesigns, verbesserter Schulungsstrategien und eines verfeinerten Abtastalgorithmus. Umfangreiche Experimente werden durchgeführt. Im Vergleich zu früheren Methoden erzielt SUGAR Spitzenresultate in der Identitätserhaltung, Video-Dynamik und Video-Text-Ausrichtung für anwendergesteuerte Videoanpassungen und zeigt die Wirksamkeit unserer vorgeschlagenen Methode.
Die jüngste KI-basierte Videobearbeitung hat es Benutzern ermöglicht, Videos durch einfache Texteingaben zu bearbeiten, wodurch der Bearbeitungsprozess erheblich vereinfacht wird. Allerdings konzentrieren sich aktuelle Zero-Shot-Videobearbeitungstechniken hauptsächlich auf globale oder Einzelobjekt-Bearbeitungen, was zu unbeabsichtigten Änderungen in anderen Teilen des Videos führen kann. Wenn mehrere Objekte lokalisierte Bearbeitungen erfordern, stehen bestehende Methoden vor Herausforderungen wie ungenauer Bearbeitung, Bearbeitungsleckage und dem Fehlen geeigneter Bewertungsdatensätze und Metriken. Um diese Einschränkungen zu überwinden, schlagen wir ein Zero-Shot Multi-Instance Video Editing-Framework namens MIVE vor. MIVE ist ein allgemeines maskenbasiertes Framework, das nicht auf spezifische Objekte (z. B. Personen) ausgerichtet ist. MIVE führt zwei Schlüsselmodule ein: (i) Disentangled Multi-instance Sampling (DMS) zur Verhinderung von Bearbeitungsleckagen und (ii) Instance-centric Probability Redistribution (IPR) zur präzisen Lokalisierung und treuen Bearbeitung. Darüber hinaus präsentieren wir unseren neuen MIVE-Datensatz mit vielfältigen Videoszenarien und führen den Cross-Instance Accuracy (CIA) Score ein, um Bearbeitungsleckagen bei Multi-Instance-Videobearbeitungsaufgaben zu bewerten. Unsere umfangreichen qualitative, quantitativen und Benutzerstudien zeigen, dass MIVE in Bezug auf Bearbeitungstreue, Genauigkeit und Leckageverhütung signifikant besser abschneidet als aktuelle State-of-the-Art-Methoden und damit einen neuen Maßstab für die Multi-Instance-Videobearbeitung setzt. Die Projektseite ist unter https://kaist-viclab.github.io/mive-site/ verfügbar.
Große Sprachmodelle (LLMs) zeigen eine außergewöhnliche Leistung über verschiedene Aufgaben hinweg, indem sie sowohl auf vorab trainiertes Wissen (d.h. parametrisches Wissen) als auch auf externes Wissen (d.h. kontextuelles Wissen) zurückgreifen. Obwohl erhebliche Anstrengungen unternommen wurden, um beide Formen des Wissens zu nutzen, bleiben Szenarien, in denen das Modell über kein relevantes Wissen verfügt, weitgehend unerforscht. Solche Einschränkungen können zu Problemen wie Halluzinationen führen, was die Zuverlässigkeit verringert und potenzielle Risiken in hochsensiblen Anwendungen verursacht. Um solche Einschränkungen anzugehen, erweitert diese Arbeit den Aufgabenbereich, um Fälle zu umfassen, in denen die Anfrage des Benutzers aufgrund fehlenden relevanten Wissens nicht erfüllt werden kann. Zu diesem Zweck führen wir das Kontrastive Dekodieren mit Enthaltung (CDA) ein, eine trainingsfreie Dekodierungsmethode, die LLMs befähigt, Antworten zu generieren, wenn relevantes Wissen verfügbar ist, und sich anderweitig zu enthalten. CDA bewertet die Relevanz jedes Wissens für eine gegebene Abfrage und bestimmt adaptiv, welches Wissen priorisiert oder komplett ignoriert werden soll. Umfangreiche Experimente mit vier LLMs auf drei Frage-Antwort-Datensätzen zeigen, dass CDA in der Lage ist, gleichzeitig genaue Generierung und Enthaltung effektiv durchzuführen. Diese Ergebnisse unterstreichen das Potenzial von CDA, die Anwendbarkeit von LLMs zu erweitern, die Zuverlässigkeit zu verbessern und das Vertrauen der Benutzer zu wahren.