papers.title

papers.description

ROCKET-1: Meistern Sie die Interaktion in offenen Welten mit visuell-zeitlichem Kontext Aufforderung
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

Vision-Sprachmodelle (VLMs) haben sich in multimodalen Aufgaben hervorgetan, aber ihre Anpassung an verkörperte Entscheidungsfindung in offenen Umgebungen birgt Herausforderungen. Ein zentrales Problem besteht darin, individuelle Entitäten in Niedriglevel-Beobachtungen nahtlos mit den abstrakten Konzepten, die für die Planung erforderlich sind, zu verbinden. Ein gängiger Ansatz zur Bewältigung dieses Problems besteht darin, hierarchische Agenten einzusetzen, bei denen VLMs als hochrangige Denker fungieren, die Aufgaben in ausführbare Teilaufgaben zerlegen, die typischerweise unter Verwendung von Sprache und vorgestellten Beobachtungen spezifiziert sind. Allerdings versagt Sprache oft dabei, räumliche Informationen effektiv zu vermitteln, während die Generierung zukünftiger Bilder mit ausreichender Genauigkeit nach wie vor eine Herausforderung darstellt. Um diese Einschränkungen zu überwinden, schlagen wir visuell-zeitliche Kontextanregung vor, ein neuartiges Kommunikationsprotokoll zwischen VLMs und Richtlinienmodellen. Dieses Protokoll nutzt die Objektsegmentierung aus vergangenen und aktuellen Beobachtungen, um Richtlinien-Umgebungsinteraktionen zu lenken. Unter Verwendung dieses Ansatzes trainieren wir ROCKET-1, eine Niedriglevel-Richtlinie, die Aktionen basierend auf konkatenierten visuellen Beobachtungen und Segmentierungsmasken vorhersagt, wobei Echtzeit-Objektverfolgung durch SAM-2 bereitgestellt wird. Unsere Methode erschließt das volle Potenzial der visuell-sprachlichen Denkfähigkeiten von VLMs und ermöglicht es ihnen, komplexe kreative Aufgaben zu lösen, insbesondere solche, die stark auf räumlichem Verständnis beruhen. Experimente in Minecraft zeigen, dass unser Ansatz Agenten ermöglicht, zuvor unerreichbare Aufgaben zu bewältigen, was die Wirksamkeit der visuell-zeitlichen Kontextanregung bei verkörperter Entscheidungsfindung hervorhebt. Codes und Demos sind auf der Projektseite verfügbar: https://craftjarvis.github.io/ROCKET-1.

Kontinuierliche Sprachsynthese unter Verwendung von pro-Token Latenter Diffusion
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

Der Erfolg von autoregressiven Transformer-Modellen mit diskreten Tokens hat quantisierungs-basierte Ansätze für kontinuierliche Modalitäten inspiriert, obwohl diese oft die Rekonstruktionsqualität einschränken. Wir stellen daher SALAD vor, ein pro-Token latentes Diffusionsmodell für Null-Schuss Text-zu-Sprache, das auf kontinuierlichen Repräsentationen arbeitet. SALAD baut auf dem kürzlich vorgeschlagenen expressiven Diffusionskopf für die Bildgenerierung auf und erweitert ihn, um variabel lange Ausgaben zu generieren. Unser Ansatz nutzt semantische Tokens zur Bereitstellung von Kontextinformationen und zur Bestimmung der Stop-Bedingung. Wir schlagen drei kontinuierliche Varianten für unsere Methode vor, die beliebte diskrete Sprachsynthesetechniken erweitern. Darüber hinaus implementieren wir diskrete Baselines für jede Variante und führen eine vergleichende Analyse von diskreten versus kontinuierlichen Sprachmodellierungstechniken durch. Unsere Ergebnisse zeigen, dass sowohl kontinuierliche als auch diskrete Ansätze sehr kompetent sind und dass SALAD eine überlegene Verständlichkeit aufweist, während sie Sprachqualität und Sprecherähnlichkeit auf dem Niveau des Original-Audios erreicht.

Lehre Multimodal LLMs, elektrokardiografische Bilder zu verstehen.
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

Das Elektrokardiogramm (EKG) ist ein wesentliches nicht-invasives Diagnosewerkzeug zur Bewertung von Herzkrankheiten. Bestehende automatische Interpretationsmethoden leiden unter begrenzter Verallgemeinerbarkeit, konzentrieren sich auf eine schmale Palette von Herzkrankheiten und sind in der Regel abhängig von rohen physiologischen Signalen, die möglicherweise nicht in ressourcenbeschränkten Umgebungen verfügbar sind, in denen nur gedruckte oder digitale EKG-Bilder zugänglich sind. Die jüngsten Fortschritte in multimodalen großen Sprachmodellen (MLLMs) bieten vielversprechende Möglichkeiten zur Bewältigung dieser Herausforderungen. Die Anwendung von MLLMs zur Interpretation von EKG-Bildern bleibt jedoch aufgrund des Mangels an Anleitungstuning-Datensätzen und etablierten EKG-Bild-Benchmarks für quantitative Bewertungen herausfordernd. Um diese Herausforderungen anzugehen, stellen wir ECGInstruct vor, einen umfassenden EKG-Bild-Anleitungstuning-Datensatz mit über einer Million Beispielen, der eine breite Palette von EKG-bezogenen Aufgaben aus verschiedenen Datenquellen abdeckt. Unter Verwendung von ECGInstruct entwickeln wir PULSE, ein MLLM, das speziell für das Verständnis von EKG-Bildern entwickelt wurde. Darüber hinaus kuratieren wir ECGBench, einen neuen Bewertungsbenchmark, der vier Schlüsselaufgaben zur Interpretation von EKG-Bildern über neun verschiedene Datensätze abdeckt. Unsere Experimente zeigen, dass PULSE einen neuen Stand der Technik setzt und allgemeine MLLMs mit einer durchschnittlichen Genauigkeitsverbesserung von 15 % bis 30 % übertrifft. Diese Arbeit hebt das Potenzial von PULSE zur Verbesserung der EKG-Interpretation in der klinischen Praxis hervor.

MMAU: Ein umfangreicher Multi-Task-Audioverstehens- und -schlussfolgerungs-Benchmark
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

Die Fähigkeit, Audioinhalte zu verstehen - dazu gehören Sprache, nicht-sprachliche Geräusche und Musik - ist entscheidend für KI-Agenten, um effektiv mit der Welt interagieren zu können. Wir stellen MMAU vor, einen neuartigen Benchmark, der entwickelt wurde, um multimodale Audioverständnismodelle bei Aufgaben mit Expertenwissen und komplexem Denken zu bewerten. MMAU umfasst 10.000 sorgfältig ausgewählte Audio-Clips, die mit menschlich annotierten natürlichsprachlichen Fragen und Antworten zu Sprache, Umgebungsgeräuschen und Musik kombiniert sind. Es beinhaltet Fragen zur Informationsgewinnung und zum Denken, bei denen Modelle 27 verschiedene Fähigkeiten in einzigartigen und anspruchsvollen Aufgaben demonstrieren müssen. Im Gegensatz zu bestehenden Benchmarks betont MMAU fortgeschrittenes Wahrnehmungsvermögen und Denken mit domänenspezifischem Wissen und fordert Modelle heraus, Aufgaben zu bewältigen, die Experten gegenüberstehen. Wir bewerten 18 Open-Source- und proprietäre (Große) Audio-Sprachmodelle und zeigen die signifikanten Herausforderungen auf, die MMAU darstellt. Bemerkenswerterweise erreicht selbst das fortschrittlichste Gemini Pro v1.5 nur eine Genauigkeit von 52,97 %, und das Open-Source-Modell Qwen2-Audio erreicht nur 52,50 %, was erhebliches Verbesserungspotenzial aufzeigt. Wir sind der Meinung, dass MMAU die Audio- und multimodale Forschungsgemeinschaft dazu bringen wird, fortschrittlichere Audioverständnismodelle zu entwickeln, die komplexe Audioaufgaben lösen können.

FasterCache: Beschleunigung von Video-Diffusionsmodellen ohne Training mit hoher Qualität
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

In diesem Paper präsentieren wir \textit{FasterCache}, eine neuartige, trainingsfreie Strategie, die darauf abzielt, die Inferenz von Video-Diffusionsmodellen mit hochwertiger Generierung zu beschleunigen. Durch die Analyse bestehender cache-basierter Methoden stellen wir fest, dass die direkte Wiederverwendung von Merkmalen aus benachbarten Schritten die Videoqualität aufgrund des Verlusts subtiler Variationen beeinträchtigt. Wir führen eine wegweisende Untersuchung des Beschleunigungspotenzials von klassifiziererfreier Führung (CFG) durch und enthüllen eine signifikante Redundanz zwischen bedingten und unbedingten Merkmalen innerhalb desselben Zeitschritts. Basierend auf diesen Beobachtungen stellen wir FasterCache vor, um die Generierung von Video auf Basis von Diffusion wesentlich zu beschleunigen. Unsere Hauptbeiträge umfassen eine dynamische Merkmalswiederverwendungsstrategie, die sowohl die Merkmalsunterscheidung als auch die zeitliche Kontinuität bewahrt, und CFG-Cache, das die Wiederverwendung von bedingten und unbedingten Ausgaben optimiert, um die Inferenzgeschwindigkeit weiter zu steigern, ohne die Videoqualität zu beeinträchtigen. Wir evaluieren FasterCache empirisch anhand aktueller Video-Diffusionsmodelle. Experimentelle Ergebnisse zeigen, dass FasterCache die Video-Generierung signifikant beschleunigen kann (z. B. 1,67-fache Beschleunigung bei Vchitect-2.0), während die Videoqualität vergleichbar mit dem Baseline-Modell bleibt und bestehende Methoden sowohl in der Inferenzgeschwindigkeit als auch in der Videoqualität kontinuierlich übertrifft.

Infinity-MM: Skalierung der multimodalen Leistung mit groß angelegten und hochwertigen Anweisungsdaten
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

ByShuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu

Vision-Language-Modelle (VLMs) haben in letzter Zeit bedeutende Fortschritte gemacht, aber die begrenzte Skala und Qualität von Open-Source-Anweisungsdaten beeinträchtigen im Vergleich zu Closed-Source-Modellen ihre Leistung. In dieser Arbeit gehen wir auf diese Einschränkung ein, indem wir Infinity-MM einführen, einen groß angelegten multimodalen Anweisungsdatensatz mit 40 Millionen Beispielen, der durch rigorose Qualitätsfilterung und Deduplizierung verbessert wurde. Wir schlagen auch eine synthetische Anweisungsgenerierungsmethode auf Basis von Open-Source-VLMs vor, die detaillierte Bildannotationen und diverse Fragegenerierung verwendet. Unter Verwendung dieser Daten haben wir ein 2-Milliarden-Parameter-VLM, Aquila-VL-2B, trainiert und damit eine State-of-the-Art (SOTA)-Leistung für Modelle ähnlicher Größe erreicht. Dies zeigt, dass die Erweiterung von Anweisungsdaten und die Generierung synthetischer Daten die Leistung von Open-Source-Modellen signifikant verbessern können.

Sind LLMs besser als berichtet? Erkennung von Etikettenfehlern und Minderung ihrer Auswirkungen auf die Modellleistung.
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

NLP-Benchmarks verlassen sich auf standardisierte Datensätze zur Schulung und Bewertung von Modellen und sind entscheidend für die Weiterentwicklung des Fachgebiets. Traditionell gewährleisten Expertenannotationen hochwertige Labels; jedoch skaliert der Kostenfaktor für Expertenannotationen nicht gut mit der steigenden Nachfrage nach größeren Datensätzen, die von modernen Modellen benötigt werden. Während Crowdsourcing eine skalierbarere Lösung bietet, geht dies oft auf Kosten der Präzision und Konsistenz der Annotation. Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) bieten neue Möglichkeiten zur Verbesserung des Annotationsprozesses, insbesondere zur Erkennung von Labelfehlern in vorhandenen Datensätzen. In dieser Arbeit betrachten wir den aktuellen Ansatz von LLM-als-Richter, der ein Ensemble von LLMs nutzt, um potenziell falsch gekennzeichnete Beispiele zu kennzeichnen. Anhand einer Fallstudie von vier Datensätzen aus dem TRUE-Benchmark, die verschiedene Aufgaben und Domänen abdecken, analysieren wir empirisch die Labelqualität vorhandener Datensätze und vergleichen Experten-, Crowdsourcing- und unsere LLM-basierten Annotationen hinsichtlich Übereinstimmung, Labelqualität und Effizienz. Dabei zeigen wir die Stärken und Grenzen jedes Annotationsverfahrens auf. Unsere Ergebnisse zeigen eine beträchtliche Anzahl von Labelfehlern auf, die bei Korrektur zu einem signifikanten Anstieg der gemeldeten Modellleistung führen. Dies legt nahe, dass viele der sogenannten Fehler der LLMs auf Labelfehler und nicht auf echte Modellfehler zurückzuführen sind. Darüber hinaus diskutieren wir die Auswirkungen von falsch gekennzeichneten Daten und schlagen Methoden vor, um diese im Training zu mildern und die Modellleistung zu verbessern.

Anleitung: Refaktorisierung von LLMs als Router-entkoppelte Mischung von Experten mit System-Co-Design
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Oct 24

ByRuisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang

Die Verbreitung großer Sprachmodelle (LLMs) hat zur Übernahme von Mixture-of-Experts (MoE)-Architekturen geführt, die spezialisierte Teilnetzwerke dynamisch nutzen, um Effizienz und Leistung zu verbessern. Trotz ihrer Vorteile stehen MoE-Modelle vor erheblichen Herausforderungen während der Inferenz, darunter ineffizientes Speichermanagement und suboptimales Batching aufgrund von nicht übereinstimmenden Designentscheidungen zwischen der Modellarchitektur und den Systemrichtlinien. Darüber hinaus wird der konventionelle Ansatz, MoEs von Grund auf zu trainieren, zunehmend kostspielig. In diesem Papier schlagen wir ein neuartiges Framework namens Read-ME vor, das vortrainierte dichte LLMs in kleinere MoE-Modelle umwandelt (im Gegensatz zur "Aufwertung" von Generalist-MoEs), um die hohen Kosten des Neutraining zu vermeiden. Unser Ansatz nutzt Aktivitätssparsamkeit zur Extraktion von Experten. Um Experten zu komponieren, untersuchen wir das weit verbreitete schichtweise Router-Design und zeigen dessen Redundanz auf. Daher führen wir den vorgeschalteten Router ein, der vom MoE-Grundgerüst entkoppelt ist und die systemfreundliche Vorberechnung und Vorausschauzeitplanung ermöglicht, um Expertenbewusstes Batching und Caching zu verbessern. Unsere Codesign-Strategie adressiert somit kritische Lücken sowohl auf algorithmischer als auch auf systemischer Ebene und etabliert eine skalierbare und effiziente Alternative für die Inferenz von LLMs in ressourcenbeschränkten Umgebungen. Read-ME übertrifft andere beliebte Open-Source-dichte Modelle ähnlicher Größenordnung und erzielt Verbesserungen von bis zu 10,1% bei MMLU und verbessert die mittlere End-to-End-Latenz um bis zu 6,1%. Die Codes sind verfügbar unter: https://github.com/VITA-Group/READ-ME.

Hybride Präferenzen: Lernen, Instanzen für menschliches vs. KI-Feedback zu routen
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi

Das Lernen aus menschlichem Feedback hat die Ausrichtung von Sprachmodellen (LMs) mit menschlichen Präferenzen ermöglicht. Direktes Sammeln menschlicher Präferenzen kann jedoch teuer, zeitaufwendig und mit hoher Varianz verbunden sein. Eine attraktive Alternative besteht darin, Präferenzen aus LMs als Quelle synthetischer Annotationen zu destillieren, da diese konsistenter, kostengünstiger und besser skalierbar sind als menschliche Annotationen; sie sind jedoch auch anfällig für Verzerrungen und Fehler. In dieser Arbeit stellen wir ein Routing-Framework vor, das Eingaben von Menschen und LMs kombiniert, um eine bessere Annotationsqualität zu erreichen und die Gesamtkosten menschlicher Annotationen zu reduzieren. Der Kern unseres Ansatzes besteht darin, Präferenzinstanzen zu identifizieren, die von menschlichen Annotationen profitieren würden. Wir formulieren dies als ein Optimierungsproblem: Angesichts eines Präferenzdatensatzes und eines Bewertungsmaßstabs trainieren wir ein Leistungsprognosemodell, um die Leistung eines Belohnungsmodells auf einer beliebigen Kombination von menschlichen und LM-Annotationen vorherzusagen, und verwenden eine Routing-Strategie, die eine Kombination auswählt, die die vorhergesagte Leistung maximiert. Wir trainieren das Leistungsprognosemodell auf MultiPref, einem neuen Präferenzdatensatz mit 10.000 Instanzen, die mit menschlichen und LM-Labels gepaart sind. Wir zeigen, dass die ausgewählte hybride Mischung aus LM- und direkten menschlichen Präferenzen mithilfe unseres Routing-Frameworks eine bessere Leistung des Belohnungsmodells erzielt im Vergleich zur ausschließlichen Verwendung von einem der beiden. Wir simulieren die selektive Sammlung menschlicher Präferenzen auf drei anderen Datensätzen und zeigen, dass unsere Methode gut auf alle drei generalisiert. Wir analysieren Merkmale des Routing-Modells, um Eigenschaften von Instanzen zu identifizieren, die von menschlichem Feedback profitieren können, z. B. Anfragen mit mäßiger Sicherheitsbedenken oder mäßiger Absichtskomplexität. Wir veröffentlichen den Datensatz, die Annotationsplattform und den Quellcode, die in dieser Studie verwendet wurden, um eine effizientere und genauere Sammlung von Präferenzen in der Zukunft zu fördern.

Zählvermögen großer Sprachmodelle und Auswirkungen der Tokenisierung
Counting Ability of Large Language Models and Impact of Tokenization

Oct 25

ByXiang Zhang, Juntai Cao, Chenyu You

Transformer, das Rückgrat moderner großer Sprachmodelle (LLMs), steht vor inhärenten architektonischen Einschränkungen, die ihre Fähigkeiten zur Schlussfolgerung behindern. Im Gegensatz zu rekurrenten Netzwerken fehlen Transformers rekurrente Verbindungen, was sie auf eine Berechnung mit konstanter Tiefe beschränkt. Diese Einschränkung platziert sie in der Komplexitätsklasse TC^0 und macht sie theoretisch unfähig, Aufgaben zu lösen, die zunehmend tiefe Schlussfolgerungen erfordern, wenn die Eingabelänge wächst. Das Zählen, eine grundlegende Komponente vieler Schlussfolgerungsaufgaben, erfordert auch, dass die Schlussfolgertiefe linear wächst, um induktiv durchgeführt zu werden. Während frühere Studien die oberen Grenzen der Zählfähigkeit in auf Transformer basierenden Expertenmodellen (d. h. Modelle, die speziell für Zählaufgaben trainiert wurden) festgelegt haben, lassen sich diese Erkenntnisse nicht direkt auf allgemeine LLMs übertragen, aufgrund von Unterschieden in den Schlussfolgerungsmechanismen. Aktuelle Arbeiten haben hervorgehoben, wie das Chain of Thought (CoT)-Schlussfolgern dazu beitragen kann, einige der architektonischen Einschränkungen von Transformers bei Zählaufgaben zu mildern. Allerdings wurde der Rolle der Tokenisierung in diesen Modellen bisher wenig Aufmerksamkeit geschenkt. Im Gegensatz zu Expertenmodellen, die oft eine Tokenisierung auf Zeichenebene verwenden, verlassen sich LLMs typischerweise auf byte-level (BPE)-Tokenizer, was grundlegend die Art und Weise verändert, wie Schlussfolgerungen verarbeitet werden. Unsere Arbeit untersucht die Auswirkungen der Tokenisierung auf die Zählfähigkeiten von LLMs und deckt erhebliche Leistungsunterschiede aufgrund von Unterschieden in der Eingabetokenisierung auf. Wir bieten sowohl theoretische als auch experimentelle Analysen, die Einblicke geben, wie Tokenisierungswahlen die theoretische Berechenbarkeit von Modellen untergraben können, und somit die Gestaltung neuer Tokenisierungsmethoden zur Verbesserung der Schlussfolgerung in LLMs inspirieren.

Fiktive synthetische Daten können die Faktentreue von LLM durch vorheriges Lernen verbessern.
Fictitious Synthetic Data Can Improve LLM Factuality via Prerequisite Learning

Oct 25

ByYujian Liu, Shiyu Chang, Tommi Jaakkola, Yang Zhang

Neueste Studien haben einen erschwerenden Faktor von LLM-Halluzinationen identifiziert: die Wissensinkonsistenz zwischen dem Vor-Training und dem Feinabstimmungsprozess, bei dem unbekannte Feinabstimmungsdaten den LLM dazu verleiten, plausible, aber falsche Ausgaben zu erzeugen. In diesem Paper schlagen wir eine neuartige Feinabstimmungsstrategie namens Prereq-Tune vor, um diese Wissensinkonsistenz anzugehen und Halluzinationen zu reduzieren. Grundsätzlich entwirrt Prereq-Tune das Erlernen von Fähigkeiten und Wissen, sodass das Modell nur die Aufgabenfähigkeiten lernt, ohne von der Wissensinkonsistenz beeinflusst zu werden. Um dies zu erreichen, führt Prereq-Tune eine zusätzliche Voraussetzungs-Lernphase ein, um das notwendige Wissen für die SFT zu erlernen, was es der anschließenden SFT ermöglicht, sich nur auf die Aufgabenfähigkeiten zu konzentrieren. Prereq-Tune kann auch mit fiktiven synthetischen Daten kombiniert werden, um die Verankerung der LLM-Ausgaben in ihrem internen Wissen zu verbessern. Experimente zeigen, dass Prereq-Tune bestehende Baselines bei der Verbesserung der Faktentreue des LLM bei kurzen QA- und Langform-Generierungsaufgaben übertrifft. Es eröffnet auch neue Möglichkeiten für die wissensgesteuerte Generierung in LLMs. Unser Code ist verfügbar unter https://github.com/UCSB-NLP-Chang/Prereq_tune.git.

Analyse des Reststroms von Sprachmodellen bei Wissenskonflikten
Analysing the Residual Stream of Language Models Under Knowledge Conflicts

Oct 21

ByYu Zhao, Xiaotang Du, Giwon Hong, Aryo Pradipta Gema, Alessio Devoto, Hongru Wang, Xuanli He, Kam-Fai Wong, Pasquale Minervini

Große Sprachmodelle (LLMs) können eine signifikante Menge an Faktenwissen in ihren Parametern speichern. Jedoch kann ihr parametrisches Wissen im Widerspruch zu den Informationen stehen, die im Kontext bereitgestellt werden. Solche Konflikte können zu unerwünschtem Modellverhalten führen, wie der Abhängigkeit von veralteten oder inkorrekten Informationen. In dieser Arbeit untersuchen wir, ob LLMs Wissenskonflikte identifizieren können und ob es möglich ist zu wissen, auf welcher Wissensquelle das Modell zurückgreifen wird, indem wir den Reststrom des LLM analysieren. Durch Sondierungsaufgaben stellen wir fest, dass LLMs intern das Signal von Wissenskonflikten im Reststrom registrieren können, was durch die Sondierung der Zwischenaktivierungen des Modells genau erkannt werden kann. Dies ermöglicht es uns, Konflikte im Reststrom zu erkennen, bevor Antworten generiert werden, ohne die Eingabe oder Modellparameter zu ändern. Darüber hinaus stellen wir fest, dass der Reststrom deutlich unterschiedliche Muster zeigt, wenn das Modell auf kontextuelles Wissen im Vergleich zu parametrischem Wissen zurückgreift, um Konflikte zu lösen. Dieses Muster kann verwendet werden, um das Verhalten von LLMs abzuschätzen, wenn Konflikte auftreten, und unerwartete Antworten zu verhindern, bevor Antworten erzeugt werden. Unsere Analyse bietet Einblicke, wie LLMs intern Wissenskonflikte bewältigen und liefert eine Grundlage für die Entwicklung von Methoden zur Steuerung der Wissensauswahlprozesse.

Reflexionsbank: Erforschung der KI-Intelligenz durch Reflexion
Reflection-Bench: probing AI intelligence with reflection

Oct 21

ByLingyu Li, Yixu Wang, Haiquan Zhao, Shuqi Kong, Yan Teng, Chunbo Li, Yingchun Wang

Die Fähigkeit, Überzeugungen oder Verhaltensweisen als Reaktion auf unerwartete Ergebnisse anzupassen, Reflexion genannt, ist grundlegend für die Interaktion intelligenter Systeme mit der Welt. Aus der Perspektive der Kognitionswissenschaft dient dies als ein Kernprinzip der Intelligenz, das sowohl auf menschliche als auch auf KI-Systeme anwendbar ist. Um die Debatte über die Intelligenz großer Sprachmodelle (LLMs) anzugehen, schlagen wir Reflection-Bench vor, einen umfassenden Benchmark, der 7 Aufgaben umfasst, die Kernfunktionen der Reflexion abdecken, darunter Wahrnehmung, Gedächtnis, Überzeugungsaktualisierung, Entscheidungsfindung, Vorhersage, kontrafaktisches Denken und Meta-Reflexion. Wir bewerten die Leistungen von 13 prominenten LLMs wie OpenAI o1, GPT-4, Claude 3.5 Sonnet usw. Die Ergebnisse deuten darauf hin, dass aktuelle LLMs immer noch über keine zufriedenstellende Reflexionsfähigkeit verfügen. Wir diskutieren die zugrunde liegenden Ursachen dieser Ergebnisse und schlagen potenzielle Ansätze für zukünftige Forschung vor. Abschließend bietet Reflection-Bench sowohl Evaluierungswerkzeuge als auch Inspiration für die Entwicklung KI-fähiger Systeme, die zuverlässig mit der Umgebung interagieren können. Unsere Daten und der Code sind unter https://github.com/YabYum/ReflectionBench verfügbar.

Die Kartierung der Medienlandschaft: Vorhersage von faktischem Berichterstattung und politischer Voreingenommenheit durch Web-Interaktionen
Mapping the Media Landscape: Predicting Factual Reporting and Political Bias Through Web Interactions

Oct 23

ByDairazalia Sánchez-Cortés, Sergio Burdisso, Esaú Villatoro-Tello, Petr Motlicek

Die Bewertung von Voreingenommenheit in Nachrichtenquellen ist entscheidend für Fachleute, Organisationen und Forscher, die sich auf wahrheitsgemäße Beweise für die Informationsbeschaffung und Berichterstattung verlassen. Während bestimmte Voreingenommenheitsindikatoren durch Inhaltsanalysen erkennbar sind, stellen Beschreibungen wie politische Voreingenommenheit und Fake News größere Herausforderungen dar. In diesem Artikel schlagen wir eine Erweiterung einer kürzlich vorgestellten Methode zur Schätzung der Zuverlässigkeit von Nachrichtenmedien vor, die sich auf die Modellierung von Medien und ihren longitudinalen Web-Interaktionen konzentriert. Konkret bewerten wir die Klassifizierungsleistung von vier Verstärkungslernstrategien auf einem großen Hyperlink-Graphen von Nachrichtenmedien. Unsere Experimente, die auf zwei anspruchsvolle Voreingenommenheitsbeschreibungen abzielen, nämlich faktische Berichterstattung und politische Voreingenommenheit, zeigten eine signifikante Leistungsverbesserung auf der Ebene der Quellenmedien. Darüber hinaus validieren wir unsere Methoden an der CLEF 2023 CheckThat! Lab-Herausforderung und übertreffen die gemeldeten Ergebnisse sowohl im F1-Score als auch im offiziellen MAE-Maß. Darüber hinaus tragen wir dazu bei, indem wir den größten annotierten Datensatz von Nachrichtenmedienquellen veröffentlichen, der mit Etiketten für faktische Berichterstattung und politische Voreingenommenheit kategorisiert ist. Unsere Ergebnisse legen nahe, dass die Profilierung von Nachrichtenmedienquellen basierend auf ihren Hyperlink-Interaktionen im Laufe der Zeit machbar ist und einen Überblick über sich entwickelnde Medienlandschaften bietet.

Dynamisches 3D-Gaußsches Tracking für graphenbasiertes neuronales Dynamikmodellieren.
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

Oct 24

ByMingtong Zhang, Kaifeng Zhang, Yunzhu Li

Videos von Robotern, die mit Objekten interagieren, enthalten umfangreiche Informationen über die Dynamik der Objekte. Allerdings berücksichtigen bestehende Ansätze zur Videovorhersage in der Regel nicht explizit die 3D-Informationen aus Videos, wie z.B. Roboteraktionen und die 3D-Zustände der Objekte, was ihren Einsatz in realen robotischen Anwendungen einschränkt. In dieser Arbeit stellen wir ein Framework vor, um die Objektdynamik direkt aus Multi-View RGB-Videos zu lernen, indem wir die Aktionspfade des Roboters und deren Auswirkungen auf die Szenendynamik explizit berücksichtigen. Wir nutzen die 3D-Gaußsche Darstellung des 3D-Gaußschen Splatting (3DGS), um ein partikelbasiertes Dynamikmodell unter Verwendung von Graph-Neuralen Netzwerken zu trainieren. Dieses Modell arbeitet mit spärlichen Steuerpartikeln, die aus den dicht verfolgten 3D-Gaußschen Rekonstruktionen abgetastet wurden. Indem wir das neuronale Dynamikmodell an Offline-Daten zur Roboterinteraktion lernen, kann unsere Methode Objektbewegungen unter verschiedenen Anfangskonfigurationen und unbekannten Roboteraktionen vorhersagen. Die 3D-Transformationen von Gaußschen können aus den Bewegungen der Steuerpartikel interpoliert werden, was die Darstellung vorhergesagter zukünftiger Objektzustände ermöglicht und eine aktionsbedingte Videovorhersage erreicht. Das Dynamikmodell kann auch auf modellbasierte Planungsframeworks für Objektmanipulationstätigkeiten angewendet werden. Wir führen Experimente mit verschiedenen Arten von verformbaren Materialien durch, darunter Seile, Kleidung und Stofftiere, um die Fähigkeit unseres Frameworks zur Modellierung komplexer Formen und Dynamiken zu demonstrieren. Unsere Projektseite ist unter https://gs-dynamics.github.io verfügbar.

Nutzung von Fähigkeiten aus unbeschrifteten Vorabdaten für effiziente Online-Erkundung
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Oct 23

ByMax Wilcoxson, Qiyang Li, Kevin Frans, Sergey Levine

Unüberwachtes Vortrainieren hat in vielen überwachten Bereichen transformative Auswirkungen gehabt. Die Anwendung solcher Ideen auf das Reinforcement Learning (RL) stellt jedoch eine einzigartige Herausforderung dar, da das Feinabstimmen nicht das Nachahmen von aufgabenspezifischen Daten beinhaltet, sondern vielmehr das Erforschen und Lokalisieren der Lösung durch iterative Selbstverbesserung. In dieser Arbeit untersuchen wir, wie nicht beschriftete vorherige Trajektoriendaten genutzt werden können, um effiziente Erkundungsstrategien zu erlernen. Während vorherige Daten verwendet werden können, um einen Satz von niedrigstufigen Fähigkeiten vorzutrainieren oder als zusätzliche Off-Policy-Daten für Online-RL zu dienen, war bisher unklar, wie diese Ideen effektiv für die Online-Erkundung kombiniert werden können. Unsere Methode SUPE (Fähigkeiten aus nicht beschrifteten vorherigen Daten für Erkundung) zeigt, dass eine sorgfältige Kombination dieser Ideen ihre Vorteile potenziert. Unsere Methode extrahiert zunächst niedrigstufige Fähigkeiten mithilfe eines Variationalen Autoencoders (VAE) und kennzeichnet dann Pseudo-Trajektorien mit nicht beschrifteten Daten mithilfe eines optimistischen Belohnungsmodells neu, wodurch vorherige Daten in hochstufige, aufgabenrelevante Beispiele umgewandelt werden. Schließlich verwendet SUPE diese transformierten Beispiele als zusätzliche Off-Policy-Daten für Online-RL, um eine hochstufige Richtlinie zu erlernen, die vortrainierte niedrigstufige Fähigkeiten zusammensetzt, um effizient zu erkunden. Wir zeigen empirisch, dass SUPE zuverlässig frühere Strategien übertrifft und erfolgreich eine Reihe von langfristigen, dünn belohnten Aufgaben löst. Code: https://github.com/rail-berkeley/supe.

papers.title

papers.description

ROCKET-1: Meistern Sie die Interaktion in offenen Welten mit visuell-zeitlichem Kontext Aufforderung
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting

Oct 23

ByShaofei Cai, Zihao Wang, Kewei Lian, Zhancun Mu, Xiaojian Ma, Anji Liu, Yitao Liang

Kontinuierliche Sprachsynthese unter Verwendung von pro-Token Latenter Diffusion
Continuous Speech Synthesis using per-token Latent Diffusion

Oct 21

ByArnon Turetzky, Nimrod Shabtay, Slava Shechtman, Hagai Aronowitz, David Haws, Ron Hoory, Avihu Dekel

Lehre Multimodal LLMs, elektrokardiografische Bilder zu verstehen.
Teach Multimodal LLMs to Comprehend Electrocardiographic Images

Oct 21

ByRuoqi Liu, Yuelin Bai, Xiang Yue, Ping Zhang

MMAU: Ein umfangreicher Multi-Task-Audioverstehens- und -schlussfolgerungs-Benchmark
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Oct 24

ByS Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

FasterCache: Beschleunigung von Video-Diffusionsmodellen ohne Training mit hoher Qualität
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

Oct 25

ByZhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong

Infinity-MM: Skalierung der multimodalen Leistung mit groß angelegten und hochwertigen Anweisungsdaten
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

Oct 24

Sind LLMs besser als berichtet? Erkennung von Etikettenfehlern und Minderung ihrer Auswirkungen auf die Modellleistung.
Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance

Oct 24

ByOmer Nahum, Nitay Calderon, Orgad Keller, Idan Szpektor, Roi Reichart

Anleitung: Refaktorisierung von LLMs als Router-entkoppelte Mischung von Experten mit System-Co-Design
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design

Oct 24

ByRuisi Cai, Yeonju Ro, Geon-Woo Kim, Peihao Wang, Babak Ehteshami Bejnordi, Aditya Akella, Zhangyang Wang

Hybride Präferenzen: Lernen, Instanzen für menschliches vs. KI-Feedback zu routen
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

Oct 24

ByLester James V. Miranda, Yizhong Wang, Yanai Elazar, Sachin Kumar, Valentina Pyatkin, Faeze Brahman, Noah A. Smith, Hannaneh Hajishirzi, Pradeep Dasigi