KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Film Gen: Eine Besetzung von Medien-Grundlagenmodellen
Movie Gen: A Cast of Media Foundation Models

Oct 17

ByAdam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

100

Wir präsentieren Movie Gen, eine Gruppe von Grundlagenmodellen, die hochwertige, 1080p HD-Videos mit verschiedenen Seitenverhältnissen und synchronisiertem Audio generiert. Wir zeigen auch zusätzliche Fähigkeiten wie präzise instruktionsbasierte Videobearbeitung und die Generierung personalisierter Videos basierend auf einem Benutzerbild. Unsere Modelle setzen einen neuen State-of-the-Art in mehreren Aufgaben: Text-zu-Video-Synthese, Video-Personalisierung, Videobearbeitung, Video-zu-Audio-Generierung und Text-zu-Audio-Generierung. Unser größtes Video-Generierungsmodell ist ein 30B-Parameter-Transformer, der mit einer maximalen Kontextlänge von 73K Video-Token trainiert wurde, was einem generierten Video von 16 Sekunden bei 16 Bildern pro Sekunde entspricht. Wir zeigen mehrere technische Innovationen und Vereinfachungen in der Architektur, den latenten Räumen, den Trainingszielen und Rezepten, der Datenaufbereitung, den Evaluierungsprotokollen, den Parallelisierungstechniken und den Inferenzoptimierungen, die es uns ermöglichen, die Vorteile der Skalierung von Vortrainingsdaten, Modellgröße und Trainingsrechenleistung für das Training von groß angelegten Medien-Generierungsmodellen zu nutzen. Wir hoffen, dass dieser Artikel der Forschungsgemeinschaft hilft, Fortschritte und Innovationen in Medien-Generierungsmodellen zu beschleunigen. Alle Videos aus diesem Artikel sind unter https://go.fb.me/MovieGenResearchVideos verfügbar.

MixEval-X: Evaluierungen von beliebigen zu beliebigen aus Datenmischungen der realen Welt
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

Das Wahrnehmen und Generieren verschiedener Modalitäten sind entscheidend für KI-Modelle, um effektiv aus realen Signalen zu lernen und mit ihnen zu interagieren, was zuverlässige Bewertungen für ihre Entwicklung erforderlich macht. Wir identifizieren zwei Hauptprobleme bei aktuellen Bewertungen: (1) inkonsistente Standards, geprägt von verschiedenen Gemeinschaften mit unterschiedlichen Protokollen und Reifegraden; und (2) signifikante Abfragen-, Bewertungs- und Verallgemeinerungsfehler. Um diesen Herausforderungen zu begegnen, stellen wir MixEval-X vor, den ersten beliebigen-zu-beliebigen Benchmark für reale Welt, der darauf abzielt, Bewertungen über Eingabe- und Ausgabemodalitäten zu optimieren und zu standardisieren. Wir schlagen multimodale Benchmark-Mischungs- und Anpassungs-Korrektur-Pipelines vor, um reale Aufgabenverteilungen wiederherzustellen und sicherzustellen, dass Bewertungen effektiv auf reale Anwendungsfälle verallgemeinern. Umfangreiche Meta-Bewertungen zeigen, dass unser Ansatz Benchmark-Stichproben effektiv mit realen Aufgabenverteilungen abgleicht und die Modell-Rankings stark mit denen von crowd-sourced realen Welt-Bewertungen korrelieren (bis zu 0,98). Wir bieten umfassende Ranglisten an, um bestehende Modelle und Organisationen neu zu bewerten und Erkenntnisse zu liefern, um das Verständnis von multimodalen Bewertungen zu verbessern und zukünftige Forschung zu informieren.

Richterbank: Ein Benchmark zur Bewertung von Richtern auf Basis von LLM.
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

LLM-basierte Richter sind als skalierbare Alternative zur menschlichen Bewertung aufgetaucht und werden zunehmend zur Bewertung, Vergleich und Verbesserung von Modellen eingesetzt. Die Zuverlässigkeit der LLM-basierten Richter selbst wird jedoch selten überprüft. Mit der zunehmenden Weiterentwicklung von LLMs werden ihre Antworten anspruchsvoller, was stärkere Richter erfordert, um sie zu bewerten. Bestehende Benchmarks konzentrieren sich hauptsächlich auf die Übereinstimmung eines Richters mit menschlichen Präferenzen, berücksichtigen jedoch oft nicht anspruchsvolle Aufgaben, bei denen die von der Crowd bezogenen menschlichen Präferenzen ein schlechter Indikator für faktische und logische Korrektheit sind. Um dies zu lösen, schlagen wir ein neuartiges Bewertungsframework vor, um LLM-basierte Richter objektiv zu bewerten. Basierend auf diesem Framework schlagen wir JudgeBench vor, einen Benchmark zur Bewertung von LLM-basierten Richtern anhand anspruchsvoller Antwortpaare, die Wissen, Schlussfolgerungen, Mathematik und Codierung umfassen. JudgeBench nutzt eine neuartige Pipeline zur Umwandlung bestehender schwieriger Datensätze in anspruchsvolle Antwortpaare mit Präferenzlabels, die die objektive Korrektheit widerspiegeln. Unsere umfassende Evaluation an einer Sammlung von aufgeforderten Richtern, feinabgestimmten Richtern, Multi-Agenten-Richtern und Belohnungsmodellen zeigt, dass JudgeBench eine deutlich größere Herausforderung darstellt als bisherige Benchmarks, wobei viele starke Modelle (z.B. GPT-4o) nur geringfügig besser abschneiden als zufälliges Raten. Insgesamt bietet JudgeBench eine zuverlässige Plattform zur Bewertung von zunehmend fortgeschrittenen LLM-basierten Richtern. Daten und Code sind verfügbar unter https://github.com/ScalerLab/JudgeBench.

Flüssig: Skalierung von autoregressiven Text-zu-Bild-generierenden Modellen mit kontinuierlichen Tokens
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

Das Skalieren von autoregressiven Modellen in der Bildverarbeitung hat sich nicht als so vorteilhaft erwiesen wie bei großen Sprachmodellen. In dieser Arbeit untersuchen wir dieses Skalierungsproblem im Kontext der Text-zu-Bild-Erzeugung und konzentrieren uns auf zwei entscheidende Faktoren: ob Modelle diskrete oder kontinuierliche Tokens verwenden und ob Tokens in einer zufälligen oder festen Rasterreihenfolge unter Verwendung von BERT- oder GPT-ähnlichen Transformer-Architekturen generiert werden. Unsere empirischen Ergebnisse zeigen, dass alle Modelle zwar effektiv hinsichtlich Validierungsverlust skalieren, ihre Evaluationsleistung - gemessen an FID, GenEval-Score und visueller Qualität - unterschiedlichen Trends folgt. Modelle, die auf kontinuierlichen Tokens basieren, erzielen signifikant bessere visuelle Qualität als solche, die diskrete Tokens verwenden. Darüber hinaus beeinflussen die Generierungsreihenfolge und Aufmerksamkeitsmechanismen signifikant den GenEval-Score: Modelle mit zufälliger Reihenfolge erzielen bemerkenswert bessere GenEval-Scores im Vergleich zu Rasterreihenfolgemodellen. Inspiriert von diesen Erkenntnissen trainieren wir Fluid, ein autoregressives Modell mit zufälliger Reihenfolge auf kontinuierlichen Tokens. Das Fluid 10.5B-Modell erreicht einen neuen state-of-the-art Zero-Shot FID von 6.16 auf MS-COCO 30K und eine Gesamtpunktzahl von 0.69 im GenEval-Benchmark. Wir hoffen, dass unsere Erkenntnisse und Ergebnisse zukünftige Bemühungen ermutigen werden, die Skalierungslücke zwischen Bild- und Sprachmodellen weiter zu überbrücken.

Janus: Entkopplung der visuellen Codierung für einheitliches multimodales Verständnis und Generierung
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

In diesem Paper stellen wir Janus vor, ein autoregressives Framework, das multimodales Verständnis und Generierung vereint. Frühere Forschung stützt sich oft auf einen einzigen visuellen Encoder für beide Aufgaben, wie z.B. Chameleon. Aufgrund der unterschiedlichen Informationsgranularität, die für multimodales Verständnis und Generierung erforderlich ist, kann dieser Ansatz jedoch zu suboptimaler Leistung führen, insbesondere beim multimodalen Verständnis. Um dieses Problem anzugehen, entkoppeln wir die visuelle Kodierung in separate Pfade, während wir weiterhin eine einzige, vereinheitlichte Transformer-Architektur für die Verarbeitung nutzen. Die Entkopplung lindert nicht nur den Konflikt zwischen den Rollen des visuellen Encoders beim Verständnis und bei der Generierung, sondern erhöht auch die Flexibilität des Frameworks. Beispielsweise können sowohl die multimodalen Verständnis- als auch die Generierungskomponenten unabhängig voneinander ihre am besten geeigneten Kodierungsmethoden auswählen. Experimente zeigen, dass Janus das bisherige vereinheitlichte Modell übertrifft und die Leistung von aufgabenspezifischen Modellen erreicht oder übertrifft. Die Einfachheit, hohe Flexibilität und Effektivität von Janus machen es zu einem vielversprechenden Kandidaten für vereinheitlichte multimodale Modelle der nächsten Generation.

Fahrplan für die Erreichung einer übermenschlichen Sprachverständnisfähigkeit mithilfe großer Sprachmodelle
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

Der Erfolg großer Sprachmodelle (LLMs) hat Bemühungen ausgelöst, Sprach- und Audio-Daten zu integrieren, um allgemeine Grundlagenmodelle zu schaffen, die in der Lage sind, sowohl textuelle als auch nicht-textuelle Eingaben zu verarbeiten. Aktuelle Fortschritte, wie z.B. GPT-4o, heben das Potenzial für end-to-end Sprach-LLMs hervor, die nicht-semantische Informationen und Weltwissen für ein tieferes Verständnis von Sprache bewahren. Um die Entwicklung von Sprach-LLMs zu lenken, schlagen wir einen Fünf-Stufen-Fahrplan vor, der von grundlegender automatischer Spracherkennung (ASR) bis hin zu fortschrittlichen übermenschlichen Modellen reicht, die in der Lage sind, nicht-semantische Informationen mit abstraktem akustischem Wissen für komplexe Aufgaben zu integrieren. Darüber hinaus entwerfen wir einen Benchmark, das SAGI-Bechmark, das kritische Aspekte über verschiedene Aufgaben in diesen fünf Stufen standardisiert und Herausforderungen bei der Verwendung von abstraktem akustischem Wissen und Vollständigkeit der Fähigkeit aufdeckt. Unsere Ergebnisse zeigen Lücken bei der Behandlung von paralinguistischen Hinweisen und abstraktem akustischem Wissen auf, und wir bieten zukünftige Richtungen an. Dieses Papier skizziert einen Fahrplan zur Weiterentwicklung von Sprach-LLMs, führt einen Benchmark zur Evaluation ein und liefert wichtige Erkenntnisse zu ihren aktuellen Einschränkungen und Potenzialen.

MobA: Ein Zwei-Ebenen-Agentensystem zur effizienten Automatisierung mobiler Aufgaben
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

Aktuelle mobile Assistenten sind durch ihre Abhängigkeit von System-APIs eingeschränkt oder haben Schwierigkeiten mit komplexen Benutzeranweisungen und verschiedenen Schnittstellen aufgrund begrenzter Verständnis- und Entscheidungsfähigkeiten. Um diesen Herausforderungen zu begegnen, schlagen wir MobA vor, einen neuartigen mobilen Agenten, der von multimodalen großen Sprachmodellen angetrieben wird und die Verständnis- und Planungsfähigkeiten durch eine ausgefeilte Agentenarchitektur auf zwei Ebenen verbessert. Der hochrangige Globale Agent (GA) ist für das Verstehen von Benutzerbefehlen, das Verfolgen von Verlaufserinnerungen und die Planung von Aufgaben verantwortlich. Der niedergradige Lokale Agent (LA) sagt detaillierte Aktionen in Form von Funktionsaufrufen voraus, geleitet von Teilaufgaben und Erinnerungen des GA. Die Integration eines Reflexionsmoduls ermöglicht eine effiziente Aufgabenerfüllung und befähigt das System, zuvor nicht gesehene komplexe Aufgaben zu bewältigen. MobA zeigt signifikante Verbesserungen in der Effizienz der Aufgabenausführung und im Abschlussgrad in Realweltbewertungen und unterstreicht das Potenzial von MLLM-gestützten mobilen Assistenten.

Weltküchen: Ein umfangreicher Benchmark für mehrsprachiges und multikulturelles visuelles Frage-Antwort-System zu globalen Küchen
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

ByGenta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo

Vision Language Models (VLMs) haben oft Schwierigkeiten mit kulturspezifischem Wissen, insbesondere in Sprachen außerhalb des Englischen und in unterrepräsentierten kulturellen Kontexten. Um ihr Verständnis für solches Wissen zu bewerten, führen wir WorldCuisines ein, einen Benchmark im großen Maßstab für mehrsprachiges und multikulturelles, visuell fundiertes Sprachverständnis ein. Dieser Benchmark umfasst einen visuellen Frage-Antwort-Datensatz (VQA) mit Text-Bild-Paaren in 30 Sprachen und Dialekten, die 9 Sprachfamilien abdecken und über 1 Million Datenpunkte enthalten, was ihn zum größten multikulturellen VQA-Benchmark macht. Er beinhaltet Aufgaben zur Identifizierung von Gerichten und deren Ursprüngen. Wir stellen Bewertungsdatensätze in zwei Größen (12k und 60k Instanzen) zusammen mit einem Trainingsdatensatz (1 Million Instanzen) bereit. Unsere Ergebnisse zeigen, dass VLMs zwar besser abschneiden, wenn der richtige Ortskontext gegeben ist, sie jedoch Schwierigkeiten mit adversen Kontexten und der Vorhersage spezifischer regionaler Küchen und Sprachen haben. Um zukünftige Forschung zu unterstützen, veröffentlichen wir eine Wissensdatenbank mit annotierten Lebensmitteleinträgen und Bildern zusammen mit den VQA-Daten.

Nutzung von Webseiten-Benutzeroberflächen für textreiche visuelle Verständnis
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

Textreiches visuelles Verständnis - die Fähigkeit, Umgebungen zu verarbeiten, in denen dichte Textinhalte mit visuellen Elementen integriert sind - ist entscheidend für multimodale große Sprachmodelle (MLLMs), um effektiv mit strukturierten Umgebungen zu interagieren. Zur Verbesserung dieser Fähigkeit schlagen wir vor, allgemeine multimodale Anweisungen aus Webseiten-Benutzeroberflächen unter Verwendung von textbasierten großen Sprachmodellen (LLMs) zu synthetisieren. Obwohl textbasierte LLMs keine direkte visuelle Eingabe haben, können sie strukturierte Textrepräsentationen aus Webseiten-Zugänglichkeitsbäumen verarbeiten. Diese Anweisungen werden dann mit UI-Bildschirmfotos gepaart, um multimodale Modelle zu trainieren. Wir stellen MultiUI vor, ein Datensatz mit 7,3 Millionen Beispielen von 1 Million Websites, der verschiedene multimodale Aufgaben und UI-Layouts abdeckt. Modelle, die auf MultiUI trainiert sind, übertreffen nicht nur in Web-UI-Aufgaben - mit einer Verbesserung von bis zu 48\% bei VisualWebBench und einer Steigerung der Handlungsrichtigkeit um 19,1\% bei einem Web-Agenten-Datensatz Mind2Web - sondern generalisieren auch überraschend gut auf nicht-webbasierte UI-Aufgaben und sogar auf nicht-UI-Bereiche wie Dokumentenverständnis, OCR und Diagramminterpretation. Diese Ergebnisse verdeutlichen die breite Anwendbarkeit von Web-UI-Daten zur Förderung des textreichen visuellen Verständnisses in verschiedenen Szenarien.

DreamVideo-2: Nullschuss-Subjektgesteuerte Videokonfiguration mit präziser Bewegungssteuerung
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan

In jüngster Zeit haben Fortschritte bei der individuellen Videogenerierung Benutzern ermöglicht, Videos zu erstellen, die sowohl spezifischen Themen als auch Bewegungsbahnen angepasst sind. Allerdings erfordern bestehende Methoden oft kompliziertes Feintuning zur Testzeit und haben Schwierigkeiten, das Lernen von Themen und die Bewegungssteuerung auszubalancieren, was ihre Anwendbarkeit im wirklichen Leben einschränkt. In diesem Artikel stellen wir DreamVideo-2 vor, ein Zero-Shot-Videokonfigurations-Framework, das in der Lage ist, Videos mit einem spezifischen Thema und Bewegungsbahn zu generieren, die jeweils durch ein einzelnes Bild und eine Sequenz von Begrenzungsrahmen geleitet werden, und ohne die Notwendigkeit für Feintuning zur Testzeit. Speziell führen wir die Referenzaufmerksamkeit ein, die die inhärenten Fähigkeiten des Modells für das Themenlernen nutzt, und entwickeln ein maskengeführtes Bewegungsmodul, um eine präzise Bewegungssteuerung zu erreichen, indem das robuste Bewegungssignal von Feldmasken, die aus Begrenzungsrahmen abgeleitet sind, vollständig genutzt wird. Obwohl diese beiden Komponenten ihre beabsichtigten Funktionen erfüllen, beobachten wir empirisch, dass die Bewegungssteuerung dazu neigt, das Themenlernen zu dominieren. Um dies anzugehen, schlagen wir zwei Schlüsselkonzepte vor: 1) die maskierte Referenzaufmerksamkeit, die ein integriertes latentes Maskenmodellierungsschema in die Referenzaufmerksamkeit einbezieht, um Themenrepräsentationen an den gewünschten Positionen zu verbessern, und 2) einen neu gewichteten Diffusionsverlust, der die Beiträge von Regionen innerhalb und außerhalb der Begrenzungsrahmen differenziert, um ein Gleichgewicht zwischen Themen- und Bewegungssteuerung sicherzustellen. Umfangreiche experimentelle Ergebnisse auf einem neu zusammengestellten Datensatz zeigen, dass DreamVideo-2 sowohl in der Themenanpassung als auch in der Bewegungssteuerung die Methoden auf dem neuesten Stand der Technik übertrifft. Der Datensatz, der Code und die Modelle werden öffentlich zugänglich gemacht.

MMed-RAG: Vielseitiges Multimodales RAG-System für medizinische Vision-Sprachmodelle
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Oct 16

ByPeng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao

Künstliche Intelligenz (KI) hat ein signifikantes Potenzial im Gesundheitswesen gezeigt, insbesondere bei der Krankheitsdiagnose und der Behandlungsplanung. Der jüngste Fortschritt bei Medizinischen Großen Bild-Sprach-Modellen (Med-LVLMs) hat neue Möglichkeiten für interaktive diagnostische Werkzeuge eröffnet. Allerdings leiden diese Modelle oft unter faktischer Halluzination, was zu falschen Diagnosen führen kann. Feinabstimmung und abrufgestützte Generierung (RAG) haben sich als Methoden zur Bewältigung dieser Probleme herausgebildet. Die Menge an hochwertigen Daten und Verteilungsverschiebungen zwischen Trainingsdaten und Bereitstellungsdaten begrenzen jedoch die Anwendung von Feinabstimmungsmethoden. Obwohl RAG leichtgewichtig und effektiv ist, sind bestehende auf RAG basierende Ansätze nicht ausreichend allgemein für verschiedene medizinische Bereiche und können potenziell zu Ausrichtungsproblemen führen, sowohl zwischen Modalitäten als auch zwischen dem Modell und der Realität. In diesem Artikel schlagen wir ein vielseitiges multimodales RAG-System, MMed-RAG, vor, das darauf abzielt, die Faktizität von Med-LVLMs zu verbessern. Unser Ansatz führt einen domänenbewussten Abrufmechanismus, eine adaptive Auswahlmethode für abgerufene Kontexte und eine nachweisbare RAG-basierte Feinabstimmungsstrategie ein. Diese Innovationen machen den RAG-Prozess ausreichend allgemein und zuverlässig und verbessern die Ausrichtung signifikant, wenn abgerufene Kontexte eingeführt werden. Experimentelle Ergebnisse über fünf medizinische Datensätze (Radiologie, Augenheilkunde, Pathologie) zu medizinischer VQA und Berichterstellung zeigen, dass MMed-RAG eine durchschnittliche Verbesserung von 43,8% in der faktischen Genauigkeit von Med-LVLMs erreichen kann. Unsere Daten und der Code sind unter https://github.com/richard-peng-xia/MMed-RAG verfügbar.

MoH: Multi-Head Attention als Mischung-von-Kopf-Aufmerksamkeit
MoH: Multi-Head Attention as Mixture-of-Head Attention

Oct 15

ByPeng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

In dieser Arbeit verbessern wir den Multi-Head-Attention-Mechanismus, den Kern des Transformer-Modells, um die Effizienz zu steigern, während wir das bisherige Genauigkeitsniveau beibehalten oder übertreffen. Wir zeigen, dass der Multi-Head-Attention in Form einer Summe ausgedrückt werden kann. Basierend auf der Erkenntnis, dass nicht alle Aufmerksamkeitsköpfe gleich wichtig sind, schlagen wir Mixture-of-Head-Attention (MoH) vor, eine neue Architektur, die Aufmerksamkeitsköpfe als Experten im Mixture-of-Experts (MoE)-Mechanismus behandelt. MoH hat zwei wesentliche Vorteile: Erstens ermöglicht MoH jedem Token, die geeigneten Aufmerksamkeitsköpfe auszuwählen, was die Inferenzeffizienz verbessert, ohne die Genauigkeit zu beeinträchtigen oder die Anzahl der Parameter zu erhöhen. Zweitens ersetzt MoH die Standard-Summe im Multi-Head-Attention durch eine gewichtete Summe, was der Aufmerksamkeitsmechanismus flexibler macht und zusätzliches Leistungspotenzial freisetzt. Umfangreiche Experimente mit ViT, DiT und LLMs zeigen, dass MoH Multi-Head-Attention übertrifft, indem es nur 50%-90% der Aufmerksamkeitsköpfe verwendet. Darüber hinaus zeigen wir, dass vorab trainierte Multi-Head-Attention-Modelle, wie z.B. LLaMA3-8B, weiterhin in unsere MoH-Modelle überführt werden können. Bemerkenswert ist, dass MoH-LLaMA3-8B eine durchschnittliche Genauigkeit von 64,0% über 14 Benchmarks erreicht und LLaMA3-8B um 2,4% übertrifft, indem es nur 75% der Aufmerksamkeitsköpfe verwendet. Wir glauben, dass das vorgeschlagene MoH eine vielversprechende Alternative zu Multi-Head-Attention darstellt und eine solide Grundlage für die Entwicklung fortschrittlicher und effizienter aufmerksamkeitsbasierter Modelle bietet.

BenTo: Benchmark-Aufgabenreduktion mit kontextbezogener Übertragbarkeit
BenTo: Benchmark Task Reduction with In-Context Transferability

Oct 17

ByHongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou

Die Evaluierung großer Sprachmodelle (LLMs) ist kostspielig: Sie erfordert die Generierung und Untersuchung von LLM-Ausgaben auf einem groß angelegten Benchmark verschiedener Aufgaben. Diese Arbeit untersucht, wie man effizient die Aufgaben reduzieren kann, die zur Bewertung von LLMs verwendet werden, ohne die Evaluierungsqualität zu beeinträchtigen. Unsere Studie zeigt, dass die Übertragbarkeit und Relevanz von Aufgaben entscheidende Informationen liefern, um die repräsentativste Teilmengen von Aufgaben zu identifizieren, indem eine Facility-Location-Funktion optimiert wird. Wir schlagen eine praktisch effiziente Metrik zur Schätzung der Übertragbarkeit zwischen zwei Aufgaben mittels In-Context-Learning (ICL) vor. Durch die Analyse der paarweisen Übertragbarkeit können wir die Aufgaben in einem modernen LLM-Benchmark (z.B. MMLU oder FLAN) auf 5% reduzieren, während nur eine <4%ige Differenz zur Bewertung auf dem Original-Benchmark induziert wird. Im Vergleich zu früheren Arbeiten ist unsere Methode trainingsfrei, gradientenfrei und äußerst effizient und erfordert nur ICL.

PopAlign: Diversifizierung kontrastierender Muster für eine umfassendere Ausrichtung
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Oct 17

ByZekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang

Die Ausrichtung großer Sprachmodelle (LLMs) beinhaltet das Training von Modellen anhand von Präferenz-kontrastiven Ausgabe-Paaren, um ihre Antworten gemäß menschlicher Präferenzen anzupassen. Um solche kontrastiven Paare zu erhalten, verlassen sich traditionelle Methoden wie RLHF und RLAIF auf begrenzte kontrastierende Muster, wie zum Beispiel variierende Modellvarianten oder Decodierungstemperaturen. Diese Einseitigkeit führt zu zwei Problemen: (1) Die Ausrichtung ist nicht umfassend; und dadurch (2) sind Modelle anfällig für Jailbreaking-Angriffe. Um diese Probleme anzugehen, untersuchen wir, wie man umfassendere und vielfältigere kontrastierende Muster konstruieren kann, um die Präferenzdaten zu verbessern (RQ1) und den Einfluss der Diversifizierung von kontrastierenden Mustern auf die Modellausrichtung zu überprüfen (RQ2). Für RQ1 schlagen wir PopAlign vor, ein Framework, das vielfältige kontrastierende Muster auf prompt-, Modell- und Pipeline-Ebenen integriert und sechs kontrastierende Strategien einführt, die keine zusätzlichen Feedback-Kennzeichnungsverfahren erfordern. In Bezug auf RQ2 führen wir gründliche Experimente durch, die zeigen, dass PopAlign signifikant besser abschneidet als bestehende Methoden und zu einer umfassenderen Ausrichtung führt.

Eine vergleichende Studie über die Schlussfolgerungsmuster des OpenAI-Modells o1.
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Oct 17

BySiwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu

Die Ermöglichung von Large Language Models (LLMs), eine breitere Palette komplexer Aufgaben zu bewältigen (z. B. Codierung, Mathematik), hat das Interesse vieler Forscher geweckt. Da LLMs weiterhin entwickelt werden, führt allein die Erhöhung der Anzahl der Modellparameter zu abnehmenden Leistungsverbesserungen und hohen Rechenkosten. Kürzlich hat OpenAI's o1-Modell gezeigt, dass Inferenzstrategien (d. h. Testzeit-Berechnungsmethoden) auch die Schlussfolgerungsfähigkeiten von LLMs signifikant verbessern können. Die Mechanismen hinter diesen Methoden sind jedoch noch unerforscht. In unserer Arbeit vergleichen wir o1 mit bestehenden Testzeit-Berechnungsmethoden (BoN, Schrittweise BoN, Agent Workflow und Self-Refine), indem wir OpenAI's GPT-4o als Grundlage für allgemeine Schlussfolgerungstests in drei Bereichen (d. h. Mathematik, Codierung, gesunder Menschenverstand) verwenden, um die Schlussfolgerungsmuster von o1 zu untersuchen. Unsere Experimente zeigen, dass das o1-Modell die beste Leistung auf den meisten Datensätzen erzielt hat. In Bezug auf Methoden zur Suche nach vielfältigen Antworten (z. B. BoN) stellen wir fest, dass die Fähigkeit der Belohnungsmodelle und der Suchraum beide die Obergrenze dieser Methoden begrenzen. In Bezug auf Methoden, die das Problem in viele Teilprobleme aufteilen, hat der Agent Workflow aufgrund des domänenspezifischen Systemprompt für eine bessere Planung von Schlussfolgerungsprozessen eine bessere Leistung als Schrittweise BoN erzielt. Es sei erwähnt, dass wir sechs Schlussfolgerungsmuster von o1 zusammengefasst und eine detaillierte Analyse mehrerer Schlussfolgerungstests bereitgestellt haben.

Eine einheitliche Betrachtung der Delta-Parameterbearbeitung in nachtrainierten großskaligen Modellen.
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

Oct 17

ByQiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun

Die Post-Training-Methode hat sich als entscheidendes Paradigma für die Anpassung von großangelegten, vortrainierten Modellen an verschiedene Aufgaben herausgestellt, deren Auswirkungen vollständig durch Delta-Parameter reflektiert werden (d. h. die Diskrepanz zwischen post-trainierten und vortrainierten Parametern). Während zahlreiche Studien Delta-Parameter-Eigenschaften mittels Operationen wie Pruning, Quantisierung, Niederrangapproximation und Extrapolation untersucht haben, fehlte bisher ein einheitlicher Rahmen zur systematischen Untersuchung dieser Eigenschaften. In diesem Artikel schlagen wir eine neue Perspektive vor, die auf der Riemannschen Summenapproximation der Verlustfunktion basiert, um die Operationen zur Bearbeitung von Delta-Parametern zu erläutern. Unsere Analyse kategorisiert bestehende Methoden basierend auf ihrer Leistung nach der Bearbeitung in drei Klassen: wettbewerbsfähig, verringert und verbessert. Wir erklären, wie sie durch den Riemannschen Summenapproximationsterm ausgedrückt werden und wie sie die Modellleistung verändern. Umfangreiche Experimente an visuellen und Sprachmodellen, einschließlich ViT, LLaMA 3, Qwen 2 und Mistral, bestätigen unsere theoretischen Erkenntnisse. Darüber hinaus stellen wir Erweiterungen bestehender Techniken wie DARE und BitDelta vor, die aufzeigen, wie sie die Eigenschaften von Delta-Parametern nutzen und sie in allgemeine Ausdrücke umstrukturieren können, um die Anwendbarkeit und Effektivität der Bearbeitung von Delta-Parametern in post-trainierten Modellen zu verbessern.

FlatQuant: Die Flachheit ist wichtig für die LLM-Quantisierung.
FlatQuant: Flatness Matters for LLM Quantization

Oct 12

ByYuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

In letzter Zeit wird Quantisierung weit verbreitet für die Kompression und Beschleunigung großer Sprachmodelle (LLMs) eingesetzt. Aufgrund der Ausreißer in LLMs ist es entscheidend, Gewichte und Aktivierungen zu glätten, um den Quantisierungsfehler mit gleichermaßen verteilten Quantisierungspunkten zu minimieren. Frühere Forschung untersucht verschiedene Vor-Quantisierungstransformationen zur Unterdrückung von Ausreißern, wie beispielsweise kanalweise Skalierung und Hadamard-Transformation. Allerdings stellen wir fest, dass diese transformierten Gewichte und Aktivierungen weiterhin steil und weitläufig bleiben können. In diesem Artikel schlagen wir FlatQuant (Schnelle und erlernbare affine Transformation) vor, einen neuen Post-Training-Quantisierungsansatz zur Verbesserung der Gleichmäßigkeit von Gewichten und Aktivierungen. Unser Ansatz identifiziert optimale affine Transformationen, die auf jeden linearen Layer zugeschnitten sind, und kalibriert sie in Stunden über ein leichtgewichtiges Ziel. Um den Laufzeitoverhead zu reduzieren, wenden wir Kronecker-Zerlegung auf die Transformationsmatrizen an und verschmelzen alle Operationen in FlatQuant zu einem einzigen Kernel. Umfangreiche Experimente zeigen, dass FlatQuant einen neuen State-of-the-Art-Quantisierungsbenchmark aufstellt. Beispielsweise erreicht es bei der W4A4-Quantisierung des LLaMA-3-70B-Modells eine Genauigkeitsminderung von weniger als 1%, was SpinQuant um 7,5% übertrifft. In Bezug auf die Inferenzlatenz reduziert FlatQuant die durch Vor-Quantisierungstransformation verursachte Verlangsamung von 0,26x bei QuaRot auf lediglich 0,07x, was eine Beschleunigung von bis zu 2,3x für Prefill und 1,7x für Decodierung bringt. Der Code ist verfügbar unter: https://github.com/ruikangliu/FlatQuant.

VidPanos: Generative Panorama-Videos aus spontanen Schwenkvideos
VidPanos: Generative Panoramic Videos from Casual Panning Videos

Oct 17

ByJingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole

Die Panorama-Bildzusammenfügung bietet einen vereinheitlichten, weitwinkligen Blick auf eine Szene, der über das Sichtfeld der Kamera hinausreicht. Das Zusammenfügen von Bildern eines schwenkenden Videos zu einem Panoramafoto ist ein gut verstandenes Problem für stationäre Szenen, aber wenn sich Objekte bewegen, kann eine statische Panoramaaufnahme die Szene nicht einfangen. Wir präsentieren eine Methode zur Synthese eines Panoramavideos aus einem zufällig aufgenommenen Schwenkvideo, als ob das Originalvideo mit einer Weitwinkelkamera aufgenommen worden wäre. Wir stellen die Panoramasynthese als ein Raum-Zeit-Ausmalproblem dar, bei dem wir versuchen, ein vollständiges Panoramavideo mit derselben Länge wie das Eingangsvideo zu erstellen. Eine konsistente Vervollständigung des Raum-Zeit-Volumens erfordert eine leistungsstarke, realistische Voraussetzung über den Videoinhalt und die Bewegung, für die wir generative Videomodelle anpassen. Bestehende generative Modelle lassen sich jedoch nicht unmittelbar auf die Panoramavervollständigung erweitern, wie wir zeigen. Stattdessen wenden wir die Videogenerierung als Komponente unseres Panoramasynthesesystems an und zeigen, wie man die Stärken der Modelle ausnutzen kann, während man ihre Einschränkungen minimiert. Unser System kann Videopanoramen für eine Vielzahl von Szenen in freier Wildbahn erstellen, darunter Menschen, Fahrzeuge und fließendes Wasser sowie stationäre Hintergrundmerkmale.

Können Mehrzweck-Sprachmodelle die tiefgreifende Bedeutung hinter chinesischen Bildern verstehen?
Can MLLMs Understand the Deep Implication Behind Chinese Images?

Oct 17

ByChenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni

Mit der stetigen Verbesserung der Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) steigt der Bedarf an Evaluierung von MLLMs auf höherer Ebene. Es gibt jedoch einen Mangel an Arbeiten, die MLLMs auf höherer Ebene in der Wahrnehmung und im Verständnis von chinesischem visuellem Inhalt bewerten. Um diese Lücke zu schließen, stellen wir das **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, vor, das darauf abzielt, die höheren Wahrnehmungs- und Verständnisfähigkeiten von MLLMs für chinesische Bilder zu bewerten. CII-Bench hebt sich auf verschiedene Weisen von bestehenden Benchmarks ab. Zunächst werden die Bilder in CII-Bench aus dem chinesischen Internet bezogen und manuell überprüft, wobei die entsprechenden Antworten ebenfalls manuell erstellt werden, um die Authentizität des chinesischen Kontexts sicherzustellen. Darüber hinaus integriert CII-Bench Bilder, die die chinesische traditionelle Kultur repräsentieren, wie berühmte chinesische traditionelle Gemälde, die das Verständnis des Modells für die chinesische traditionelle Kultur tief reflektieren können. Durch umfangreiche Experimente auf CII-Bench mit mehreren MLLMs haben wir bedeutende Erkenntnisse gewonnen. Zunächst wird ein erheblicher Unterschied in der Leistung von MLLMs und Menschen auf CII-Bench festgestellt. Die höchste Genauigkeit von MLLMs beträgt 64,4%, während die menschliche Genauigkeit im Durchschnitt 78,2% beträgt und beeindruckende 81,0% erreicht. Anschließend schneiden MLLMs schlechter bei chinesischen traditionellen Kulturbildern ab, was auf Einschränkungen in ihrer Fähigkeit hinweist, hochrangige Semantik zu verstehen und über ein tiefes Wissensfundament der chinesischen traditionellen Kultur zu verfügen. Schließlich wird festgestellt, dass die meisten Modelle eine verbesserte Genauigkeit aufweisen, wenn emotionale Hinweise aus den Bildern in die Anfragen integriert werden. Wir sind der Überzeugung, dass CII-Bench MLLMs ermöglichen wird, ein besseres Verständnis für chinesische Semantik und chinesisch-spezifische Bilder zu erlangen und somit den Weg hin zu einer Experten-Künstlichen-Allgemeinintelligenz (AGI) voranzutreiben. Unser Projekt ist öffentlich verfügbar unter https://cii-bench.github.io/.

Haben LLMs politische Korrektheit? Analyse ethischer Vorurteile und Jailbreak-Schwachstellen in KI-Systemen.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Oct 17

ByIsack Lee, Haebin Seong

Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in verschiedenen Aufgaben zeigen, bergen sie potenzielle Sicherheitsrisiken, wie z.B. 'Jailbreaks', bei denen bösartige Eingaben LLMs dazu bringen können, schädliche Inhalte zu generieren. Um diese Probleme anzugehen, haben viele LLM-Entwickler verschiedene Sicherheitsmaßnahmen implementiert, um diese Modelle auszurichten. Diese Ausrichtung beinhaltet mehrere Techniken, einschließlich Datenfilterung während des Vor-Trainings, überwachtes Feintuning, Verstärkungslernen aus menschlichem Feedback und Red-Teaming-Übungen. Diese Methoden führen oft absichtliche und beabsichtigte Voreingenommenheiten ähnlich der politischen Korrektheit (PC) ein, um das ethische Verhalten von LLMs sicherzustellen. In diesem Artikel gehen wir auf die absichtlichen Voreingenommenheiten ein, die in LLMs für Sicherheitszwecke eingefügt werden, und untersuchen Methoden, um diese Sicherheitsausrichtungstechniken zu umgehen. Insbesondere führen diese absichtlichen Voreingenommenheiten zu einer Jailbreak-Erfolgsquote in GPT-4o-Modellen, die um 20% zwischen nicht-binären und cisgeschlechtlichen Schlüsselwörtern und um 16% zwischen weißen und schwarzen Schlüsselwörtern variiert, selbst wenn die anderen Teile der Eingabe identisch sind. Wir führen das Konzept des PCJailbreak ein, das die inhärenten Risiken hervorhebt, die durch diese sicherheitsbedingten Voreingenommenheiten entstehen. Darüber hinaus schlagen wir eine effiziente Verteidigungsmethode, PCDefense, vor, die Jailbreak-Versuche verhindert, indem Verteidigungsanweisungen vor der Generierung eingefügt werden. PCDefense stellt eine attraktive Alternative zu Schutzmodellen wie Llama-Guard dar, die zusätzliche Inferenzkosten nach der Textgenerierung erfordern. Unsere Ergebnisse betonen die dringende Notwendigkeit, dass LLM-Entwickler einen verantwortungsbewussteren Ansatz bei der Gestaltung und Implementierung von Sicherheitsmaßnahmen verfolgen.

Lernen aus Interaktionen im Rückblick.
Retrospective Learning from Interactions

Oct 17

ByZizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi

Mehrstufige Interaktionen zwischen großen Sprachmodellen (LLMs) und Benutzern beinhalten natürlicherweise implizite Feedbacksignale. Wenn ein LLM unerwartet auf eine Anweisung reagiert, wird der Benutzer dies wahrscheinlich durch eine Neufassung der Anfrage, Ausdruck von Frustration oder Wechsel zu einer alternativen Aufgabe signalisieren. Solche Signale sind aufgabenunabhängig und nehmen einen relativ begrenzten Sprachraum ein, was es dem LLM ermöglicht, sie zu identifizieren, selbst wenn er bei der tatsächlichen Aufgabe versagt. Dies schafft eine Möglichkeit, kontinuierlich aus Interaktionen zu lernen, ohne zusätzliche Annotationen. Wir stellen ReSpect vor, eine Methode, um aus solchen Signalen in vergangenen Interaktionen durch Rückblick zu lernen. Wir setzen ReSpect in einem neuen multimodalen Interaktionsszenario ein, bei dem Menschen ein LLM anweisen, eine abstrakte Denkaufgabe mit einem kombinatorischen Lösungsraum zu lösen. Durch Tausende von Interaktionen mit Menschen zeigen wir, wie ReSpect die Aufgabenerfüllungsrate allmählich von 31% auf 82% verbessert, und das alles ohne externe Annotationen.

Erinnern, Abrufen und Generieren: Verstehen unendlicher visueller Konzepte als Ihr personalisierter Assistent
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Oct 17

ByHaoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue

Die Entwicklung großer Sprachmodelle (LLMs) hat die Fähigkeiten multimodaler LLMs (MLLMs) als allgemeine Assistenten signifikant verbessert. Allerdings beschränkt der Mangel an benutzerspezifischem Wissen noch immer ihre Anwendung im täglichen Leben der Menschen. In diesem Artikel stellen wir das Retrieval Augmented Personalization (RAP) Framework für die Personalisierung von MLLMs vor. Ausgehend von einem allgemeinen MLLM verwandeln wir ihn in drei Schritten in einen personalisierten Assistenten. (a) Erinnern: Wir entwerfen eine Schlüssel-Wert-Datenbank, um benutzerbezogene Informationen wie den Namen des Benutzers, Avatar und andere Attribute zu speichern. (b) Abrufen: Wenn der Benutzer ein Gespräch beginnt, wird RAP relevante Informationen aus der Datenbank mithilfe eines multimodalen Retrievers abrufen. (c) Generieren: Die Eingabeabfrage und die abgerufenen Konzeptinformationen werden in die MLLMs eingespeist, um personalisierte, wissensgestützte Antworten zu generieren. Im Gegensatz zu früheren Methoden ermöglicht RAP die Echtzeitkonzeptbearbeitung durch Aktualisierung der externen Datenbank. Um die Generierungsqualität und die Ausrichtung auf benutzerspezifische Informationen weiter zu verbessern, entwerfen wir eine Pipeline für die Datensammlung und erstellen einen spezialisierten Datensatz für das personalisierte Training von MLLMs. Basierend auf dem Datensatz trainieren wir eine Reihe von MLLMs als personalisierte multimodale Assistenten. Durch Vortraining auf einem groß angelegten Datensatz können sich RAP-MLLMs auf unendliche visuelle Konzepte generalisieren, ohne zusätzliches Feintuning. Unsere Modelle zeigen eine herausragende Flexibilität und Generierungsqualität bei einer Vielzahl von Aufgaben, wie personalisierte Bildunterschriften, Fragebeantwortung und visuelle Erkennung. Der Code, die Daten und die Modelle sind unter https://github.com/Hoar012/RAP-MLLM verfügbar.

Fehler nach vorne: Verbesserung der generativen Fehlerkorrektur für ASR mit synthetischen Daten und Abrufverstärkung
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Oct 17

BySreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li

Die Generative Fehlerkorrektur (GEC) hat sich als leistungsstarke Nachbearbeitungsmethode zur Verbesserung der Leistung von Automatischen Spracherkennungssystemen (ASR) etabliert. Allerdings zeigen wir, dass GEC-Modelle Schwierigkeiten haben, über die spezifischen während des Trainings aufgetretenen Fehlerarten hinaus zu generalisieren, was ihre Fähigkeit einschränkt, neue, unerkannte Fehler zur Testzeit zu korrigieren, insbesondere in Out-of-Domain (OOD)-Szenarien. Dieses Phänomen verstärkt sich bei benannten Entitäten (NEs), bei denen neben unzureichenden Kontextinformationen oder Kenntnissen über die NEs ständig neue NEs auftauchen. Um diese Probleme anzugehen, schlagen wir DARAG (Daten- und Abruf-erweiterte Generative Fehlerkorrektur) vor, einen neuartigen Ansatz, der darauf abzielt, die GEC für ASR in In-Domain (ID) und OOD-Szenarien zu verbessern. Wir erweitern den GEC-Trainingsdatensatz mit synthetischen Daten, die durch Aufforderung von LLMs und Text-in-Sprache-Modellen generiert wurden, um zusätzliche Fehler zu simulieren, aus denen das Modell lernen kann. Für OOD-Szenarien simulieren wir Testzeitfehler aus neuen Domänen ähnlich und auf unsupervised Weise. Zusätzlich führen wir zur besseren Behandlung von benannten Entitäten eine abruf-erweiterte Korrektur ein, indem wir die Eingabe mit aus einer Datenbank abgerufenen Entitäten erweitern. Unser Ansatz ist einfach, skalierbar und sowohl domänen- als auch sprachunabhängig. Wir experimentieren mit mehreren Datensätzen und Einstellungen und zeigen, dass DARAG alle unsere Baselines übertrifft, mit relativen WER-Verbesserungen von 8\% - 30\% in ID und 10\% - 33\% in OOD-Einstellungen.

MedMobile: Ein sprachbasiertes Modell in mobiler Größe mit klinischen Fähigkeiten auf Expertenniveau.
MedMobile: A mobile-sized language model with expert-level clinical capabilities

Oct 11

ByKrithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann

Sprachmodelle (LMs) haben Expertenlevel-Argumentation und Erinnerungsfähigkeiten in der Medizin gezeigt. Jedoch stellen Rechenkosten und Datenschutzbedenken zunehmende Barrieren für eine breit angelegte Implementierung dar. Wir stellen eine sparsame Anpassung von phi-3-mini vor, MedMobile, ein 3,8 Milliarden Parameter LM, das auf einem mobilen Gerät lauffähig ist, für medizinische Anwendungen. Wir zeigen, dass MedMobile 75,7% bei der MedQA (USMLE) erreicht, den Bestehenswert für Ärzte (~60%) übertrifft und sich den Punktzahlen von Modellen annähert, die 100-mal so groß sind. Anschließend führen wir eine sorgfältige Reihe von Ablationen durch und zeigen, dass Gedankenketten, Ensembling und Feinabstimmung zu den größten Leistungssteigerungen führen, während unerwarteterweise die erweiterte Generierung durch Abrufen keine signifikanten Verbesserungen aufzeigt.

γ-MoD: Erforschung der Mischung-aus-Tiefen-Anpassung für multimodale große Sprachmodelle
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Oct 17

ByYaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

Trotz des signifikanten Fortschritts bei multimodalen großen Sprachmodellen (MLLMs) bleibt ihr hoher Rechenaufwand ein Hindernis für den Einsatz in der realen Welt. Inspiriert von der Mischung von Tiefen (MoDs) in der natürlichen Sprachverarbeitung zielen wir darauf ab, diese Einschränkung aus der Perspektive der "aktivierten Token" anzugehen. Unsere Schlüsselerkenntnis ist, dass, wenn die meisten Token für die Schichtberechnung überflüssig sind, sie direkt über die MoD-Schicht übersprungen werden können. Die direkte Umwandlung der dichten Schichten von MLLMs in MoD-Schichten führt jedoch zu erheblichen Leistungseinbußen. Um dieses Problem zu lösen, schlagen wir eine innovative MoD-Anpassungsstrategie für bestehende MLLMs namens Gamma-MoD vor. Bei Gamma-MoD wird eine neue Metrik vorgeschlagen, um die Bereitstellung von MoDs im MLLM zu steuern, nämlich der Rang der Aufmerksamkeitskarten (ARank). Durch ARank können wir effektiv identifizieren, welche Schicht überflüssig ist und durch die MoD-Schicht ersetzt werden sollte. Basierend auf ARank schlagen wir außerdem zwei neue Designs vor, um die Rechensparsamkeit von MLLM zu maximieren, während seine Leistung beibehalten wird, nämlich gemeinsamer Vision-Sprach-Router und maskiertes Routing-Lernen. Mit diesen Designs können mehr als 90% der dichten Schichten des MLLM effektiv in MoD-Schichten umgewandelt werden. Um unsere Methode zu validieren, wenden wir sie auf drei beliebte MLLMs an und führen umfangreiche Experimente an 9 Benchmark-Datensätzen durch. Die experimentellen Ergebnisse bestätigen nicht nur den signifikanten Effizienzvorteil von Gamma-MoD gegenüber bestehenden MLLMs, sondern bestätigen auch seine Verallgemeinerungsfähigkeit auf verschiedene MLLMs. Beispielsweise kann Gamma-MoD bei einem geringfügigen Leistungsabfall von -1,5% die Trainings- und Inferenzzeit von LLaVA-HR um 31,0% bzw. 53,2% reduzieren.

MuVi: Video-zu-Musik-Generierung mit semantischer Ausrichtung und rhythmischer Synchronisation
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Oct 16

ByRuiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao

Die Generierung von Musik, die mit dem visuellen Inhalt eines Videos übereinstimmt, war eine anspruchsvolle Aufgabe, da sie ein tiefes Verständnis der visuellen Semantik erfordert und die Erzeugung von Musik beinhaltet, deren Melodie, Rhythmus und Dynamik mit den visuellen Erzählungen harmonieren. Dieses Papier stellt MuVi vor, ein neuartiges Framework, das diese Herausforderungen effektiv angeht, um die Kohäsion und immersive Erfahrung von audiovisuellen Inhalten zu verbessern. MuVi analysiert den Videoinhalt durch einen speziell entwickelten visuellen Adapter, um kontextuell und zeitlich relevante Merkmale zu extrahieren. Diese Merkmale werden verwendet, um Musik zu generieren, die nicht nur zur Stimmung und zum Thema des Videos passt, sondern auch zu seinem Rhythmus und Tempo. Wir führen auch ein kontrastives Musik-Visual-Pre-Training-Schema ein, um die Synchronisation sicherzustellen, basierend auf der periodischen Natur von Musikphrasen. Darüber hinaus zeigen wir, dass unser auf Flussabgleich basierender Musikgenerator über eine kontextbezogene Lernfähigkeit verfügt, die es uns ermöglicht, den Stil und das Genre der generierten Musik zu kontrollieren. Experimentelle Ergebnisse zeigen, dass MuVi eine überlegene Leistung sowohl in der Audioqualität als auch in der zeitlichen Synchronisation aufweist. Die generierten Musikvideo-Beispiele sind unter https://muvi-v2m.github.io verfügbar.

Minimale Feinabstimmung zur Freischaltung langer Ausgaben von LLMs mit hochwertigen Daten als Schlüssel
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

Oct 14

ByYingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao

Mit der raschen Weiterentwicklung großer Sprachmodelle zur Unterstützung längerer Kontexte besteht eine bemerkenswerte Diskrepanz in ihrer Fähigkeit, längere Ausgaben zu generieren. Eine kürzlich durchgeführte Studie legt nahe, dass die Hauptursache für dieses Ungleichgewicht in dem Mangel an Daten mit langen Ausgaben während des Ausrichtungstrainings liegen könnte. Angesichts dieser Beobachtung werden Versuche unternommen, Grundlagenmodelle mit Daten neu auszurichten, die diese Lücke füllen, was zu Modellen führt, die in der Lage sind, umfangreiche Ausgaben zu generieren, wenn sie angewiesen werden. In diesem Paper untersuchen wir die Auswirkungen der Datenqualität bei der Abstimmung eines Modells für lange Ausgaben und die Möglichkeit, dies von den Ausgangspunkten menschenorientierter (Anweisungs- oder Chat-) Modelle aus zu tun. Durch sorgfältige Datenkuratierung zeigen wir, dass es möglich ist, ähnliche Leistungsverbesserungen in unseren abgestimmten Modellen zu erzielen, und das nur mit einem kleinen Bruchteil der Trainingsdaten und Rechenleistung. Darüber hinaus bewerten wir die Verallgemeinerbarkeit solcher Ansätze, indem wir unsere Abstimmungsrezepte auf mehrere Modelle anwenden. Unsere Ergebnisse legen nahe, dass, obwohl die Fähigkeiten zur Generierung langer Ausgaben bei verschiedenen Modellen von Haus aus variieren, unser Ansatz, sie mit hochwertigen Daten unter Verwendung geringer Rechenleistung abzustimmen, konsistent signifikante Verbesserungen bei allen Modellen erzielt, auf denen wir experimentiert haben. Wir haben unseren kuratierten Datensatz zur Abstimmung der Fähigkeit zum Verfassen langer Texte, die Implementierungen zur Modellabstimmung und -bewertung sowie die feinabgestimmten Modelle öffentlich zugänglich gemacht.

LoLDU: Niedrig-Rang-Anpassung durch Untere-Diag-Obere Zerlegung für parameter-effizientes Feinabstimmung
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Oct 17

ByYiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang

Das rasante Wachstum des Modellumfangs hat einen erheblichen Bedarf an Rechenressourcen für Feinabstimmungen erforderlich gemacht. Bestehende Ansätze wie die Low-Rank-Anpassung (LoRA) haben versucht, das Problem des Umgangs mit den vielen aktualisierten Parametern bei vollständiger Feinabstimmung zu lösen. Allerdings verwendet LoRA eine zufällige Initialisierung und Optimierung von niederrangigen Matrizen, um die aktualisierten Gewichte anzunähern, was zu einer suboptimalen Konvergenz und einer Genauigkeitslücke im Vergleich zur vollständigen Feinabstimmung führen kann. Um diese Probleme zu lösen, schlagen wir LoLDU vor, einen parameter-effizienten Feinabstimmungsansatz (PEFT), der die trainierbaren Parameter im Vergleich zu herkömmlichen PEFT-Methoden um das 2600-fache reduziert, während die Leistung vergleichbar bleibt. LoLDU nutzt die Lower-Diag-Upper-Zerlegung (LDU), um niederrangige Matrizen für eine schnellere Konvergenz und Orthogonalität zu initialisieren. Wir konzentrieren uns auf die Optimierung der Diagonalmatrix für Skalierungstransformationen. Unseres Wissens nach hat LoLDU die geringste Anzahl an Parametern unter allen PEFT-Ansätzen. Wir führten umfangreiche Experimente durch, die 4 Datensätze zur Anweisungsbeachtung, 6 Datensätze zur natürlichen Sprachverarbeitung (NLU), 8 Datensätze zur Bildklassifizierung und Bildgenerierung mit mehreren Modelltypen (LLaMA2, RoBERTa, ViT und Stable Diffusion) umfassen, und bieten eine umfassende und detaillierte Analyse. Unser Open-Source-Code ist unter folgendem Link verfügbar: https://github.com/SKDDJ/LoLDU.

Offene Materialien 2024 (OMat24) Datensatz und Modelle für anorganische Materialien
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

Oct 16

ByLuis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi

Die Fähigkeit, neue Materialien mit wünschenswerten Eigenschaften zu entdecken, ist für zahlreiche Anwendungen von entscheidender Bedeutung, von der Unterstützung bei der Minderung des Klimawandels bis hin zu Fortschritten in der Hardware für die nächste Generation von Computern. KI hat das Potenzial, die Entdeckung und Gestaltung von Materialien zu beschleunigen, indem sie den chemischen Raum effektiver erkundet im Vergleich zu anderen rechnergestützten Methoden oder durch Ausprobieren. Obwohl bereits erhebliche Fortschritte bei KI für Materialdaten, Benchmarks und Modelle erzielt wurden, ist eine Hürde, die aufgetreten ist, der Mangel an öffentlich verfügbaren Trainingsdaten und offenen vortrainierten Modellen. Um dies zu lösen, präsentieren wir eine Meta FAIR-Veröffentlichung des Open Materials 2024 (OMat24) groß angelegten offenen Datensatzes und einer begleitenden Reihe von vortrainierten Modellen. OMat24 enthält über 110 Millionen Dichtefunktionaltheorie (DFT)-Berechnungen, die auf strukturelle und kompositionelle Vielfalt ausgerichtet sind. Unsere EquiformerV2-Modelle erzielen Spitzenleistungen auf der Matbench Discovery-Rangliste und sind in der Lage, den Grundzustandstabilität und Bildungsenergien mit einem F1-Score über 0,9 bzw. einer Genauigkeit von 20 meV/Atom vorherzusagen. Wir untersuchen die Auswirkungen von Modellgröße, zusätzlichen Rauschunterdrückungszielen und Feinabstimmung auf die Leistung über eine Reihe von Datensätzen, einschließlich OMat24, MPtraj und Alexandria. Die offene Veröffentlichung des OMat24-Datensatzes und der Modelle ermöglicht es der Forschungsgemeinschaft, auf unseren Bemühungen aufzubauen und weitere Fortschritte in der KI-unterstützten Materialwissenschaft voranzutreiben.

Richtung Leitfadenfreie AR-Visuelle Generierung durch Bedingte Kontrastive Ausrichtung
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

Oct 12

ByHuayu Chen, Hang Su, Peize Sun, Jun Zhu

Classifier-Free Guidance (CFG) ist eine entscheidende Technik zur Verbesserung der Stichprobenqualität von visuellen generativen Modellen. Allerdings führt CFG in der autoregressiven (AR) multimodalen Generierung zu Designinkonsistenzen zwischen Sprache und visuellem Inhalt, die im Widerspruch zur Designphilosophie der Vereinheitlichung verschiedener Modalitäten für visuelle AR stehen. Angeregt durch Methoden zur Ausrichtung von Sprachmodellen schlagen wir Condition Contrastive Alignment (CCA) vor, um die leitungslose AR-Visuallgenerierung mit hoher Leistung zu erleichtern und ihre theoretische Verbindung mit geleiteten Abtastmethoden zu analysieren. Im Gegensatz zu Leitungsverfahren, die den Abtastprozess verändern, um die ideale Abtastverteilung zu erreichen, feinabstimmt CCA direkt vortrainierte Modelle, um dieselbe Zielverteilung anzupassen. Experimentelle Ergebnisse zeigen, dass CCA die leitungslose Leistung aller getesteten Modelle signifikant verbessern kann, mit nur einer Feinabstimmungsepisode (ca. 1\% der Vortrainingsepochen) auf dem Vortrainingsdatensatz, vergleichbar mit geleiteten Abtastmethoden. Dies reduziert weitgehend die Notwendigkeit für geleitete Abtastung in der AR-Visuallgenerierung und halbiert die Abtastkosten. Darüber hinaus kann CCA durch Anpassung der Trainingsparameter Kompromisse zwischen Stichprobenvielfalt und -treue erreichen, ähnlich wie CFG. Dies bestätigt experimentell die starke theoretische Verbindung zwischen sprachorientierter Ausrichtung und visuell orientierten Leitungsverfahren und vereinigt zwei zuvor unabhängige Forschungsfelder. Code und Modellgewichte: https://github.com/thu-ml/CCA.

Lang-LRM: Langsequenz Großrekonstruktionsmodell für breit abdeckende Gaußsche Splats
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Oct 16

ByChen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu

Wir schlagen Long-LRM vor, ein generalisierbares 3D-Gaußsches Rekonstruktionsmodell, das in der Lage ist, eine große Szene aus einer langen Sequenz von Eingabebildern wiederherzustellen. Speziell kann unser Modell 32 Quellbilder mit einer Auflösung von 960x540 verarbeiten, und das innerhalb von nur 1,3 Sekunden auf einer einzelnen A100 80G GPU. Unsere Architektur umfasst eine Mischung aus den neueren Mamba2-Blöcken und den klassischen Transformer-Blöcken, die es ermöglichten, deutlich mehr Tokens zu verarbeiten als in früheren Arbeiten. Dies wird durch effizientes Zusammenführen von Tokens und Gaußschem Beschneiden erreicht, um ein Gleichgewicht zwischen Qualität und Effizienz zu schaffen. Im Gegensatz zu früheren feedforward-Modellen, die auf die Verarbeitung von 1-4 Eingabebildern beschränkt sind und nur einen kleinen Teil einer großen Szene rekonstruieren können, rekonstruiert Long-LRM die gesamte Szene in einem einzigen feedforward-Schritt. Auf groß angelegten Szenendatensätzen wie DL3DV-140 und Tanks and Temples erreicht unsere Methode eine vergleichbare Leistung wie optimierungsbasierte Ansätze, ist jedoch um zwei Größenordnungen effizienter. Projektseite: https://arthurhero.github.io/projects/llrm

AERO: Softmax-Only LLMs für effiziente private Inferenz
AERO: Softmax-Only LLMs for Efficient Private Inference

Oct 16

ByNandan Kumar Jha, Brandon Reagen

Die Verbreitung proprietärer Sprachmodelle hat Datenschutzbedenken hinsichtlich sensibler Nutzerdaten aufgeworfen und die Notwendigkeit für private Inferenz (PI) betont, bei der die Inferenz direkt auf verschlüsselten Eingaben durchgeführt wird. Allerdings stehen aktuelle PI-Methoden aufgrund nichtlinearer Operationen vor unverhältnismäßig höheren Kommunikations- und Latenzüberlastungen. In diesem Papier präsentieren wir eine umfassende Analyse, um die Rolle der Nichtlinearitäten in auf Decodern basierenden Sprachmodellen zu verstehen. Wir stellen AERO vor, ein vierstufiges architektonisches Optimierungsframework, das die bestehende LLM-Architektur für effiziente PI verfeinert, indem systematisch Nichtlinearitäten wie LayerNorm und GELU entfernt und die Anzahl der Gleitkommaoperationen reduziert werden. Zum ersten Mal schlagen wir eine ausschließlich auf Softmax basierende Architektur mit signifikant weniger Gleitkommaoperationen für effiziente PI vor. Darüber hinaus entwickeln wir eine neuartige Entropie-Regularisierungstechnik, um die Leistung von ausschließlich Softmax-Modellen zu verbessern. AERO erzielt eine bis zu 4,23-fache Kommunikations- und 1,94-fache Latenzreduktion. Wir validieren die Wirksamkeit von AERO, indem wir es mit dem Stand der Technik vergleichen.

TransAgent: Übertragung von Vision-Sprache-Grundlagenmodellen mit heterogener Agentenzusammenarbeit
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Oct 16

ByYiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang

Vision-Sprache-Grundlagenmodelle (wie CLIP) haben kürzlich ihre Leistungsfähigkeit im Transferlernen gezeigt, dank des groß angelegten Vortrainings von Bild-Text. Allerdings können die Zielbereichsdaten in den nachgelagerten Aufgaben stark von der Vortrainingsphase abweichen, was es für ein solches einzelnes Modell schwierig macht, gut zu generalisieren. Alternativ gibt es eine Vielzahl von Expertenmodellen, die vielfältiges Vision- und/oder Sprachwissen enthalten, das auf verschiedenen Modalitäten, Aufgaben, Netzwerken und Datensätzen vortrainiert ist. Leider handelt es sich bei diesen Modellen um "isolierter Agenten" mit heterogenen Strukturen, und wie man ihr Wissen zur Verallgemeinerung von CLIP-ähnlichen Modellen vollständig integriert, wurde noch nicht vollständig erforscht. Um diese Lücke zu überbrücken, schlagen wir ein allgemeines und prägnantes TransAgenten-Framework vor, das das Wissen der isolierten Agenten auf einheitliche Weise transportiert und CLIP effektiv anleitet, mit Multi-Source-Wissensdestillation zu generalisieren. Mit einem solchen einzigartigen Framework arbeiten wir flexibel mit 11 heterogenen Agenten zusammen, um Vision-Sprache-Grundlagenmodelle zu stärken, ohne zusätzliche Kosten in der Inferenzphase. Schließlich erzielt unser TransAgent Spitzenleistungen auf 11 visuellen Erkennungsdatensätzen. Unter denselben Low-Shot-Einstellungen übertrifft es das beliebte CoOp durchschnittlich um etwa 10 % und um 20 % auf EuroSAT, das große Domänenverschiebungen enthält.

SBI-RAG: Verbesserung der Lösung mathematischer Textaufgaben für Schüler durch schema-basierte Anleitung und generierungsunterstützte Abrufung.
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

Oct 17

ByPrakhar Dixit, Tim Oates

Viele Schüler haben Schwierigkeiten mit Mathematik-Wortproblemen (MWPs) und finden es oft schwer, Schlüsselinformationen zu identifizieren und die geeigneten mathematischen Operationen auszuwählen. Die instruktionsbasierte Schema-Strategie (SBI) ist eine evidenzbasierte Methode, die Schülern hilft, Probleme anhand ihrer Struktur zu kategorisieren und so die Genauigkeit bei der Problemlösung zu verbessern. Aufbauend darauf schlagen wir ein Schema-basiertes Instruktionsabruf-erweitertes Generierungs (SBI-RAG) Framework vor, das ein großes Sprachmodell (LLM) integriert. Unser Ansatz betont schrittweises Denken, indem er Schemata nutzt, um die Lösungsgenerierung zu lenken. Wir bewerten seine Leistung anhand des GSM8K-Datensatzes, vergleichen sie mit GPT-4 und GPT-3.5 Turbo und führen eine "Denk-Score"-Metrik ein, um die Lösungsqualität zu bewerten. Unsere Ergebnisse legen nahe, dass SBI-RAG die Klarheit des Denkens und die Genauigkeit der Problemlösung verbessert und möglicherweise Bildungsvorteile für Schüler bietet.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Film Gen: Eine Besetzung von Medien-Grundlagenmodellen
Movie Gen: A Cast of Media Foundation Models

Oct 17

100

MixEval-X: Evaluierungen von beliebigen zu beliebigen aus Datenmischungen der realen Welt
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

Richterbank: Ein Benchmark zur Bewertung von Richtern auf Basis von LLM.
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

Flüssig: Skalierung von autoregressiven Text-zu-Bild-generierenden Modellen mit kontinuierlichen Tokens
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

Janus: Entkopplung der visuellen Codierung für einheitliches multimodales Verständnis und Generierung
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

Fahrplan für die Erreichung einer übermenschlichen Sprachverständnisfähigkeit mithilfe großer Sprachmodelle
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

MobA: Ein Zwei-Ebenen-Agentensystem zur effizienten Automatisierung mobiler Aufgaben
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

Weltküchen: Ein umfangreicher Benchmark für mehrsprachiges und multikulturelles visuelles Frage-Antwort-System zu globalen Küchen
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

Nutzung von Webseiten-Benutzeroberflächen für textreiche visuelle Verständnis
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

DreamVideo-2: Nullschuss-Subjektgesteuerte Videokonfiguration mit präziser Bewegungssteuerung
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan