Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Vision-Sprachmodelle (VLMs) haben sich in multimodalen Aufgaben hervorgetan, aber ihre Anpassung an verkörperte Entscheidungsfindung in offenen Umgebungen birgt Herausforderungen. Ein zentrales Problem besteht darin, individuelle Entitäten in Niedriglevel-Beobachtungen nahtlos mit den abstrakten Konzepten, die für die Planung erforderlich sind, zu verbinden. Ein gängiger Ansatz zur Bewältigung dieses Problems besteht darin, hierarchische Agenten einzusetzen, bei denen VLMs als hochrangige Denker fungieren, die Aufgaben in ausführbare Teilaufgaben zerlegen, die typischerweise unter Verwendung von Sprache und vorgestellten Beobachtungen spezifiziert sind. Allerdings versagt Sprache oft dabei, räumliche Informationen effektiv zu vermitteln, während die Generierung zukünftiger Bilder mit ausreichender Genauigkeit nach wie vor eine Herausforderung darstellt. Um diese Einschränkungen zu überwinden, schlagen wir visuell-zeitliche Kontextanregung vor, ein neuartiges Kommunikationsprotokoll zwischen VLMs und Richtlinienmodellen. Dieses Protokoll nutzt die Objektsegmentierung aus vergangenen und aktuellen Beobachtungen, um Richtlinien-Umgebungsinteraktionen zu lenken. Unter Verwendung dieses Ansatzes trainieren wir ROCKET-1, eine Niedriglevel-Richtlinie, die Aktionen basierend auf konkatenierten visuellen Beobachtungen und Segmentierungsmasken vorhersagt, wobei Echtzeit-Objektverfolgung durch SAM-2 bereitgestellt wird. Unsere Methode erschließt das volle Potenzial der visuell-sprachlichen Denkfähigkeiten von VLMs und ermöglicht es ihnen, komplexe kreative Aufgaben zu lösen, insbesondere solche, die stark auf räumlichem Verständnis beruhen. Experimente in Minecraft zeigen, dass unser Ansatz Agenten ermöglicht, zuvor unerreichbare Aufgaben zu bewältigen, was die Wirksamkeit der visuell-zeitlichen Kontextanregung bei verkörperter Entscheidungsfindung hervorhebt. Codes und Demos sind auf der Projektseite verfügbar: https://craftjarvis.github.io/ROCKET-1.
Der Erfolg von autoregressiven Transformer-Modellen mit diskreten Tokens hat quantisierungs-basierte Ansätze für kontinuierliche Modalitäten inspiriert, obwohl diese oft die Rekonstruktionsqualität einschränken. Wir stellen daher SALAD vor, ein pro-Token latentes Diffusionsmodell für Null-Schuss Text-zu-Sprache, das auf kontinuierlichen Repräsentationen arbeitet. SALAD baut auf dem kürzlich vorgeschlagenen expressiven Diffusionskopf für die Bildgenerierung auf und erweitert ihn, um variabel lange Ausgaben zu generieren. Unser Ansatz nutzt semantische Tokens zur Bereitstellung von Kontextinformationen und zur Bestimmung der Stop-Bedingung. Wir schlagen drei kontinuierliche Varianten für unsere Methode vor, die beliebte diskrete Sprachsynthesetechniken erweitern. Darüber hinaus implementieren wir diskrete Baselines für jede Variante und führen eine vergleichende Analyse von diskreten versus kontinuierlichen Sprachmodellierungstechniken durch. Unsere Ergebnisse zeigen, dass sowohl kontinuierliche als auch diskrete Ansätze sehr kompetent sind und dass SALAD eine überlegene Verständlichkeit aufweist, während sie Sprachqualität und Sprecherähnlichkeit auf dem Niveau des Original-Audios erreicht.
Das Elektrokardiogramm (EKG) ist ein wesentliches nicht-invasives Diagnosewerkzeug zur Bewertung von Herzkrankheiten. Bestehende automatische Interpretationsmethoden leiden unter begrenzter Verallgemeinerbarkeit, konzentrieren sich auf eine schmale Palette von Herzkrankheiten und sind in der Regel abhängig von rohen physiologischen Signalen, die möglicherweise nicht in ressourcenbeschränkten Umgebungen verfügbar sind, in denen nur gedruckte oder digitale EKG-Bilder zugänglich sind. Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) bieten vielversprechende Möglichkeiten zur Bewältigung dieser Herausforderungen. Die Anwendung von MLLMs zur Interpretation von EKG-Bildern bleibt jedoch aufgrund des Mangels an Anleitungstuning-Datensätzen und etablierten EKG-Bild-Benchmarks für quantitative Bewertungen herausfordernd. Um diese Herausforderungen anzugehen, stellen wir ECGInstruct vor, einen umfassenden EKG-Bild-Anleitungstuning-Datensatz mit über einer Million Beispielen, der eine breite Palette von EKG-bezogenen Aufgaben aus verschiedenen Datenquellen abdeckt. Unter Verwendung von ECGInstruct entwickeln wir PULSE, ein MLLM, das speziell für das Verständnis von EKG-Bildern entwickelt wurde. Darüber hinaus kuratieren wir ECGBench, einen neuen Bewertungsbenchmark, der vier Schlüsselaufgaben zur Interpretation von EKG-Bildern über neun verschiedene Datensätze abdeckt. Unsere Experimente zeigen, dass PULSE einen neuen Stand der Technik setzt und allgemeine MLLMs mit einer durchschnittlichen Genauigkeitsverbesserung von 15 % bis 30 % übertrifft. Diese Arbeit hebt das Potenzial von PULSE zur Verbesserung der EKG-Interpretation in der klinischen Praxis hervor.
In diesem Paper präsentieren wir \textit{FasterCache}, eine neuartige, trainingsfreie Strategie, die darauf abzielt, die Inferenz von Video-Diffusionsmodellen mit hochwertiger Generierung zu beschleunigen. Durch die Analyse bestehender cache-basierter Methoden stellen wir fest, dass die direkte Wiederverwendung von Merkmalen aus benachbarten Schritten die Videoqualität aufgrund des Verlusts subtiler Variationen beeinträchtigt. Wir führen eine wegweisende Untersuchung des Beschleunigungspotenzials von klassifiziererfreier Führung (CFG) durch und enthüllen eine signifikante Redundanz zwischen bedingten und unbedingten Merkmalen innerhalb desselben Zeitschritts. Basierend auf diesen Beobachtungen stellen wir FasterCache vor, um die Generierung von Video auf Basis von Diffusion wesentlich zu beschleunigen. Unsere Hauptbeiträge umfassen eine dynamische Merkmalswiederverwendungsstrategie, die sowohl die Merkmalsunterscheidung als auch die zeitliche Kontinuität bewahrt, und CFG-Cache, das die Wiederverwendung von bedingten und unbedingten Ausgaben optimiert, um die Inferenzgeschwindigkeit weiter zu steigern, ohne die Videoqualität zu beeinträchtigen. Wir evaluieren FasterCache empirisch anhand aktueller Video-Diffusionsmodelle. Experimentelle Ergebnisse zeigen, dass FasterCache die Video-Generierung signifikant beschleunigen kann (z. B. 1,67-fache Beschleunigung bei Vchitect-2.0), während die Videoqualität vergleichbar mit dem Baseline-Modell bleibt und bestehende Methoden sowohl in der Inferenzgeschwindigkeit als auch in der Videoqualität kontinuierlich übertrifft.
Die Fähigkeit, Audioinhalte zu verstehen - dazu gehören Sprache, nicht-sprachliche Geräusche und Musik - ist entscheidend für KI-Agenten, um effektiv mit der Welt interagieren zu können. Wir stellen MMAU vor, einen neuartigen Benchmark, der entwickelt wurde, um multimodale Audioverständnismodelle bei Aufgaben mit Expertenwissen und komplexem Denken zu bewerten. MMAU umfasst 10.000 sorgfältig ausgewählte Audio-Clips, die mit menschlich annotierten natürlichsprachlichen Fragen und Antworten zu Sprache, Umgebungsgeräuschen und Musik kombiniert sind. Es beinhaltet Fragen zur Informationsgewinnung und zum Denken, bei denen Modelle 27 verschiedene Fähigkeiten in einzigartigen und anspruchsvollen Aufgaben demonstrieren müssen. Im Gegensatz zu bestehenden Benchmarks betont MMAU fortgeschrittenes Wahrnehmungsvermögen und Denken mit domänenspezifischem Wissen und fordert Modelle heraus, Aufgaben zu bewältigen, die Experten gegenüberstehen. Wir bewerten 18 Open-Source- und proprietäre (Große) Audio-Sprachmodelle und zeigen die signifikanten Herausforderungen auf, die MMAU darstellt. Bemerkenswerterweise erreicht selbst das fortschrittlichste Gemini Pro v1.5 nur eine Genauigkeit von 52,97 %, und das Open-Source-Modell Qwen2-Audio erreicht nur 52,50 %, was erhebliches Verbesserungspotenzial aufzeigt. Wir sind der Meinung, dass MMAU die Audio- und multimodale Forschungsgemeinschaft dazu bringen wird, fortschrittlichere Audioverständnismodelle zu entwickeln, die komplexe Audioaufgaben lösen können.
Vision-Language-Modelle (VLMs) haben in letzter Zeit bedeutende Fortschritte gemacht, aber die begrenzte Skala und Qualität von Open-Source-Anweisungsdaten beeinträchtigen im Vergleich zu Closed-Source-Modellen ihre Leistung. In dieser Arbeit gehen wir auf diese Einschränkung ein, indem wir Infinity-MM einführen, einen groß angelegten multimodalen Anweisungsdatensatz mit 40 Millionen Beispielen, der durch rigorose Qualitätsfilterung und Deduplizierung verbessert wurde. Wir schlagen auch eine synthetische Anweisungsgenerierungsmethode auf Basis von Open-Source-VLMs vor, die detaillierte Bildannotationen und diverse Fragegenerierung verwendet. Unter Verwendung dieser Daten haben wir ein 2-Milliarden-Parameter-VLM, Aquila-VL-2B, trainiert und damit eine State-of-the-Art (SOTA)-Leistung für Modelle ähnlicher Größe erreicht. Dies zeigt, dass die Erweiterung von Anweisungsdaten und die Generierung synthetischer Daten die Leistung von Open-Source-Modellen signifikant verbessern können.
Die Verbreitung großer Sprachmodelle (LLMs) hat zur Übernahme von Mixture-of-Experts (MoE)-Architekturen geführt, die spezialisierte Teilnetzwerke dynamisch nutzen, um Effizienz und Leistung zu verbessern. Trotz ihrer Vorteile stehen MoE-Modelle vor erheblichen Herausforderungen während der Inferenz, darunter ineffizientes Speichermanagement und suboptimales Batching aufgrund von nicht übereinstimmenden Designentscheidungen zwischen der Modellarchitektur und den Systemrichtlinien. Darüber hinaus wird der konventionelle Ansatz, MoEs von Grund auf zu trainieren, zunehmend kostspielig. In diesem Papier schlagen wir ein neuartiges Framework namens Read-ME vor, das vortrainierte dichte LLMs in kleinere MoE-Modelle umwandelt (im Gegensatz zur "Aufwertung" von Generalist-MoEs), um die hohen Kosten des Neutraining zu vermeiden. Unser Ansatz nutzt Aktivitätssparsamkeit zur Extraktion von Experten. Um Experten zu komponieren, untersuchen wir das weit verbreitete schichtweise Router-Design und zeigen dessen Redundanz auf. Daher führen wir den vorgeschalteten Router ein, der vom MoE-Grundgerüst entkoppelt ist und die systemfreundliche Vorberechnung und Vorausschauzeitplanung ermöglicht, um Expertenbewusstes Batching und Caching zu verbessern. Unsere Codesign-Strategie adressiert somit kritische Lücken sowohl auf algorithmischer als auch auf systemischer Ebene und etabliert eine skalierbare und effiziente Alternative für die Inferenz von LLMs in ressourcenbeschränkten Umgebungen. Read-ME übertrifft andere beliebte Open-Source-dichte Modelle ähnlicher Größenordnung und erzielt Verbesserungen von bis zu 10,1% bei MMLU und verbessert die mittlere End-to-End-Latenz um bis zu 6,1%. Die Codes sind verfügbar unter: https://github.com/VITA-Group/READ-ME.
NLP-Benchmarks verlassen sich auf standardisierte Datensätze zur Schulung und Bewertung von Modellen und sind entscheidend für die Weiterentwicklung des Fachgebiets. Traditionell gewährleisten Expertenannotationen hochwertige Labels; jedoch skaliert der Kostenfaktor für Expertenannotationen nicht gut mit der steigenden Nachfrage nach größeren Datensätzen, die von modernen Modellen benötigt werden. Während Crowdsourcing eine skalierbarere Lösung bietet, geht dies oft auf Kosten der Präzision und Konsistenz der Annotation. Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) bieten neue Möglichkeiten zur Verbesserung des Annotationsprozesses, insbesondere zur Erkennung von Labelfehlern in vorhandenen Datensätzen. In dieser Arbeit betrachten wir den aktuellen Ansatz von LLM-als-Richter, der ein Ensemble von LLMs nutzt, um potenziell falsch gekennzeichnete Beispiele zu kennzeichnen. Anhand einer Fallstudie von vier Datensätzen aus dem TRUE-Benchmark, die verschiedene Aufgaben und Domänen abdecken, analysieren wir empirisch die Labelqualität vorhandener Datensätze und vergleichen Experten-, Crowdsourcing- und unsere LLM-basierten Annotationen hinsichtlich Übereinstimmung, Labelqualität und Effizienz. Dabei zeigen wir die Stärken und Grenzen jedes Annotationsverfahrens auf. Unsere Ergebnisse zeigen eine beträchtliche Anzahl von Labelfehlern auf, die bei Korrektur zu einem signifikanten Anstieg der gemeldeten Modellleistung führen. Dies legt nahe, dass viele der sogenannten Fehler der LLMs auf Labelfehler und nicht auf echte Modellfehler zurückzuführen sind. Darüber hinaus diskutieren wir die Auswirkungen von falsch gekennzeichneten Daten und schlagen Methoden vor, um diese im Training zu mildern und die Modellleistung zu verbessern.
Transformer, das Rückgrat moderner großer Sprachmodelle (LLMs), steht vor inhärenten architektonischen Einschränkungen, die ihre Fähigkeiten zur Schlussfolgerung behindern. Im Gegensatz zu rekurrenten Netzwerken fehlen Transformers rekurrente Verbindungen, was sie auf eine Berechnung mit konstanter Tiefe beschränkt. Diese Einschränkung platziert sie in der Komplexitätsklasse TC^0 und macht sie theoretisch unfähig, Aufgaben zu lösen, die zunehmend tiefe Schlussfolgerungen erfordern, wenn die Eingabelänge wächst. Das Zählen, eine grundlegende Komponente vieler Schlussfolgerungsaufgaben, erfordert auch, dass die Schlussfolgertiefe linear wächst, um induktiv durchgeführt zu werden. Während frühere Studien die oberen Grenzen der Zählfähigkeit in auf Transformer basierenden Expertenmodellen (d. h. Modelle, die speziell für Zählaufgaben trainiert wurden) festgelegt haben, lassen sich diese Erkenntnisse nicht direkt auf allgemeine LLMs übertragen, aufgrund von Unterschieden in den Schlussfolgerungsmechanismen. Aktuelle Arbeiten haben hervorgehoben, wie das Chain of Thought (CoT)-Schlussfolgern dazu beitragen kann, einige der architektonischen Einschränkungen von Transformers bei Zählaufgaben zu mildern. Allerdings wurde der Rolle der Tokenisierung in diesen Modellen bisher wenig Aufmerksamkeit geschenkt. Im Gegensatz zu Expertenmodellen, die oft eine Tokenisierung auf Zeichenebene verwenden, verlassen sich LLMs typischerweise auf byte-level (BPE)-Tokenizer, was grundlegend die Art und Weise verändert, wie Schlussfolgerungen verarbeitet werden. Unsere Arbeit untersucht die Auswirkungen der Tokenisierung auf die Zählfähigkeiten von LLMs und deckt erhebliche Leistungsunterschiede aufgrund von Unterschieden in der Eingabetokenisierung auf. Wir bieten sowohl theoretische als auch experimentelle Analysen, die Einblicke geben, wie Tokenisierungswahlen die theoretische Berechenbarkeit von Modellen untergraben können, und somit die Gestaltung neuer Tokenisierungsmethoden zur Verbesserung der Schlussfolgerung in LLMs inspirieren.
Das Lernen aus menschlichem Feedback hat die Ausrichtung von Sprachmodellen (LMs) mit menschlichen Präferenzen ermöglicht. Direktes Sammeln menschlicher Präferenzen kann jedoch teuer, zeitaufwendig und mit hoher Varianz verbunden sein. Eine attraktive Alternative besteht darin, Präferenzen aus LMs als Quelle synthetischer Annotationen zu destillieren, da diese konsistenter, kostengünstiger und besser skalierbar sind als menschliche Annotationen; sie sind jedoch auch anfällig für Verzerrungen und Fehler. In dieser Arbeit stellen wir ein Routing-Framework vor, das Eingaben von Menschen und LMs kombiniert, um eine bessere Annotationsqualität zu erreichen und die Gesamtkosten menschlicher Annotationen zu reduzieren. Der Kern unseres Ansatzes besteht darin, Präferenzinstanzen zu identifizieren, die von menschlichen Annotationen profitieren würden. Wir formulieren dies als ein Optimierungsproblem: Angesichts eines Präferenzdatensatzes und eines Bewertungsmaßstabs trainieren wir ein Leistungsprognosemodell, um die Leistung eines Belohnungsmodells auf einer beliebigen Kombination von menschlichen und LM-Annotationen vorherzusagen, und verwenden eine Routing-Strategie, die eine Kombination auswählt, die die vorhergesagte Leistung maximiert. Wir trainieren das Leistungsprognosemodell auf MultiPref, einem neuen Präferenzdatensatz mit 10.000 Instanzen, die mit menschlichen und LM-Labels gepaart sind. Wir zeigen, dass die ausgewählte hybride Mischung aus LM- und direkten menschlichen Präferenzen mithilfe unseres Routing-Frameworks eine bessere Leistung des Belohnungsmodells erzielt im Vergleich zur ausschließlichen Verwendung von einem der beiden. Wir simulieren die selektive Sammlung menschlicher Präferenzen auf drei anderen Datensätzen und zeigen, dass unsere Methode gut auf alle drei generalisiert. Wir analysieren Merkmale des Routing-Modells, um Eigenschaften von Instanzen zu identifizieren, die von menschlichem Feedback profitieren können, z. B. Anfragen mit mäßiger Sicherheitsbedenken oder mäßiger Absichtskomplexität. Wir veröffentlichen den Datensatz, die Annotationsplattform und den Quellcode, die in dieser Studie verwendet wurden, um eine effizientere und genauere Sammlung von Präferenzen in der Zukunft zu fördern.
Neueste Studien haben einen erschwerenden Faktor von LLM-Halluzinationen identifiziert: die Wissensinkonsistenz zwischen dem Vor-Training und dem Feinabstimmungsprozess, bei dem unbekannte Feinabstimmungsdaten den LLM dazu verleiten, plausible, aber falsche Ausgaben zu erzeugen. In diesem Paper schlagen wir eine neuartige Feinabstimmungsstrategie namens Prereq-Tune vor, um diese Wissensinkonsistenz anzugehen und Halluzinationen zu reduzieren. Grundsätzlich entwirrt Prereq-Tune das Erlernen von Fähigkeiten und Wissen, sodass das Modell nur die Aufgabenfähigkeiten lernt, ohne von der Wissensinkonsistenz beeinflusst zu werden. Um dies zu erreichen, führt Prereq-Tune eine zusätzliche Voraussetzungs-Lernphase ein, um das notwendige Wissen für die SFT zu erlernen, was es der anschließenden SFT ermöglicht, sich nur auf die Aufgabenfähigkeiten zu konzentrieren. Prereq-Tune kann auch mit fiktiven synthetischen Daten kombiniert werden, um die Verankerung der LLM-Ausgaben in ihrem internen Wissen zu verbessern. Experimente zeigen, dass Prereq-Tune bestehende Baselines bei der Verbesserung der Faktentreue des LLM bei kurzen QA- und Langform-Generierungsaufgaben übertrifft. Es eröffnet auch neue Möglichkeiten für die wissensgesteuerte Generierung in LLMs. Unser Code ist verfügbar unter https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
Große Sprachmodelle (LLMs) können eine signifikante Menge an Faktenwissen in ihren Parametern speichern. Jedoch kann ihr parametrisches Wissen im Widerspruch zu den Informationen stehen, die im Kontext bereitgestellt werden. Solche Konflikte können zu unerwünschtem Modellverhalten führen, wie der Abhängigkeit von veralteten oder inkorrekten Informationen. In dieser Arbeit untersuchen wir, ob LLMs Wissenskonflikte identifizieren können und ob es möglich ist zu wissen, auf welcher Wissensquelle das Modell zurückgreifen wird, indem wir den Reststrom des LLM analysieren. Durch Sondierungsaufgaben stellen wir fest, dass LLMs intern das Signal von Wissenskonflikten im Reststrom registrieren können, was durch die Sondierung der Zwischenaktivierungen des Modells genau erkannt werden kann. Dies ermöglicht es uns, Konflikte im Reststrom zu erkennen, bevor Antworten generiert werden, ohne die Eingabe oder Modellparameter zu ändern. Darüber hinaus stellen wir fest, dass der Reststrom deutlich unterschiedliche Muster zeigt, wenn das Modell auf kontextuelles Wissen im Vergleich zu parametrischem Wissen zurückgreift, um Konflikte zu lösen. Dieses Muster kann verwendet werden, um das Verhalten von LLMs abzuschätzen, wenn Konflikte auftreten, und unerwartete Antworten zu verhindern, bevor Antworten erzeugt werden. Unsere Analyse bietet Einblicke, wie LLMs intern Wissenskonflikte bewältigen und liefert eine Grundlage für die Entwicklung von Methoden zur Steuerung der Wissensauswahlprozesse.
Videos von Robotern, die mit Objekten interagieren, enthalten umfangreiche Informationen über die Dynamik der Objekte. Allerdings berücksichtigen bestehende Ansätze zur Videovorhersage in der Regel nicht explizit die 3D-Informationen aus Videos, wie z.B. Roboteraktionen und die 3D-Zustände der Objekte, was ihren Einsatz in realen robotischen Anwendungen einschränkt. In dieser Arbeit stellen wir ein Framework vor, um die Objektdynamik direkt aus Multi-View RGB-Videos zu lernen, indem wir die Aktionspfade des Roboters und deren Auswirkungen auf die Szenendynamik explizit berücksichtigen. Wir nutzen die 3D-Gaußsche Darstellung des 3D-Gaußschen Splatting (3DGS), um ein partikelbasiertes Dynamikmodell unter Verwendung von Graph-Neuralen Netzwerken zu trainieren. Dieses Modell arbeitet mit spärlichen Steuerpartikeln, die aus den dicht verfolgten 3D-Gaußschen Rekonstruktionen abgetastet wurden. Indem wir das neuronale Dynamikmodell an Offline-Daten zur Roboterinteraktion lernen, kann unsere Methode Objektbewegungen unter verschiedenen Anfangskonfigurationen und unbekannten Roboteraktionen vorhersagen. Die 3D-Transformationen von Gaußschen können aus den Bewegungen der Steuerpartikel interpoliert werden, was die Darstellung vorhergesagter zukünftiger Objektzustände ermöglicht und eine aktionsbedingte Videovorhersage erreicht. Das Dynamikmodell kann auch auf modellbasierte Planungsframeworks für Objektmanipulationstätigkeiten angewendet werden. Wir führen Experimente mit verschiedenen Arten von verformbaren Materialien durch, darunter Seile, Kleidung und Stofftiere, um die Fähigkeit unseres Frameworks zur Modellierung komplexer Formen und Dynamiken zu demonstrieren. Unsere Projektseite ist unter https://gs-dynamics.github.io verfügbar.
Die Fähigkeit, Überzeugungen oder Verhaltensweisen als Reaktion auf unerwartete Ergebnisse anzupassen, Reflexion genannt, ist grundlegend für die Interaktion intelligenter Systeme mit der Welt. Aus der Perspektive der Kognitionswissenschaft dient dies als ein Kernprinzip der Intelligenz, das sowohl auf menschliche als auch auf KI-Systeme anwendbar ist. Um die Debatte über die Intelligenz großer Sprachmodelle (LLMs) anzugehen, schlagen wir Reflection-Bench vor, einen umfassenden Benchmark, der 7 Aufgaben umfasst, die Kernfunktionen der Reflexion abdecken, darunter Wahrnehmung, Gedächtnis, Überzeugungsaktualisierung, Entscheidungsfindung, Vorhersage, kontrafaktisches Denken und Meta-Reflexion. Wir bewerten die Leistungen von 13 prominenten LLMs wie OpenAI o1, GPT-4, Claude 3.5 Sonnet usw. Die Ergebnisse deuten darauf hin, dass aktuelle LLMs immer noch über keine zufriedenstellende Reflexionsfähigkeit verfügen. Wir diskutieren die zugrunde liegenden Ursachen dieser Ergebnisse und schlagen potenzielle Ansätze für zukünftige Forschung vor. Abschließend bietet Reflection-Bench sowohl Evaluierungswerkzeuge als auch Inspiration für die Entwicklung KI-fähiger Systeme, die zuverlässig mit der Umgebung interagieren können. Unsere Daten und der Code sind unter https://github.com/YabYum/ReflectionBench verfügbar.
Die Bewertung von Voreingenommenheit in Nachrichtenquellen ist entscheidend für Fachleute, Organisationen und Forscher, die sich auf wahrheitsgemäße Beweise für die Informationsbeschaffung und Berichterstattung verlassen. Während bestimmte Voreingenommenheitsindikatoren durch Inhaltsanalysen erkennbar sind, stellen Beschreibungen wie politische Voreingenommenheit und Fake News größere Herausforderungen dar. In diesem Artikel schlagen wir eine Erweiterung einer kürzlich vorgestellten Methode zur Schätzung der Zuverlässigkeit von Nachrichtenmedien vor, die sich auf die Modellierung von Medien und ihren longitudinalen Web-Interaktionen konzentriert. Konkret bewerten wir die Klassifizierungsleistung von vier Verstärkungslernstrategien auf einem großen Hyperlink-Graphen von Nachrichtenmedien. Unsere Experimente, die auf zwei anspruchsvolle Voreingenommenheitsbeschreibungen abzielen, nämlich faktische Berichterstattung und politische Voreingenommenheit, zeigten eine signifikante Leistungsverbesserung auf der Ebene der Quellenmedien. Darüber hinaus validieren wir unsere Methoden an der CLEF 2023 CheckThat! Lab-Herausforderung und übertreffen die gemeldeten Ergebnisse sowohl im F1-Score als auch im offiziellen MAE-Maß. Darüber hinaus tragen wir dazu bei, indem wir den größten annotierten Datensatz von Nachrichtenmedienquellen veröffentlichen, der mit Etiketten für faktische Berichterstattung und politische Voreingenommenheit kategorisiert ist. Unsere Ergebnisse legen nahe, dass die Profilierung von Nachrichtenmedienquellen basierend auf ihren Hyperlink-Interaktionen im Laufe der Zeit machbar ist und einen Überblick über sich entwickelnde Medienlandschaften bietet.
Unüberwachtes Vortrainieren hat in vielen überwachten Bereichen transformative Auswirkungen gehabt. Die Anwendung solcher Ideen auf das Reinforcement Learning (RL) stellt jedoch eine einzigartige Herausforderung dar, da das Feinabstimmen nicht das Nachahmen von aufgabenspezifischen Daten beinhaltet, sondern vielmehr das Erforschen und Lokalisieren der Lösung durch iterative Selbstverbesserung. In dieser Arbeit untersuchen wir, wie nicht beschriftete vorherige Trajektoriendaten genutzt werden können, um effiziente Erkundungsstrategien zu erlernen. Während vorherige Daten verwendet werden können, um einen Satz von niedrigstufigen Fähigkeiten vorzutrainieren oder als zusätzliche Off-Policy-Daten für Online-RL zu dienen, war bisher unklar, wie diese Ideen effektiv für die Online-Erkundung kombiniert werden können. Unsere Methode SUPE (Fähigkeiten aus nicht beschrifteten vorherigen Daten für Erkundung) zeigt, dass eine sorgfältige Kombination dieser Ideen ihre Vorteile potenziert. Unsere Methode extrahiert zunächst niedrigstufige Fähigkeiten mithilfe eines Variationalen Autoencoders (VAE) und kennzeichnet dann Pseudo-Trajektorien mit nicht beschrifteten Daten mithilfe eines optimistischen Belohnungsmodells neu, wodurch vorherige Daten in hochstufige, aufgabenrelevante Beispiele umgewandelt werden. Schließlich verwendet SUPE diese transformierten Beispiele als zusätzliche Off-Policy-Daten für Online-RL, um eine hochstufige Richtlinie zu erlernen, die vortrainierte niedrigstufige Fähigkeiten zusammensetzt, um effizient zu erkunden. Wir zeigen empirisch, dass SUPE zuverlässig frühere Strategien übertrifft und erfolgreich eine Reihe von langfristigen, dünn belohnten Aufgaben löst. Code: https://github.com/rail-berkeley/supe.