papers.title

papers.description

OS-ATLAS: Ein Grundlagen-Aktionsmodell für Generalist GUI-Agenten
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Bestehende Bemühungen beim Aufbau von GUI-Agenten stützen sich stark auf die Verfügbarkeit von robusten kommerziellen Vision-Sprach-Modellen (VLMs) wie GPT-4o und GeminiProVision. Praktiker zögern oft, Open-Source-VLMs zu verwenden, aufgrund ihrer signifikanten Leistungslücke im Vergleich zu ihren Closed-Source-Pendants, insbesondere bei der GUI-Verankerung und Out-Of-Distribution (OOD)-Szenarien. Um zukünftige Forschung in diesem Bereich zu erleichtern, haben wir OS-Atlas entwickelt - ein grundlegendes GUI-Aktionsmodell, das bei der GUI-Verankerung und OOD-Agentenaufgaben durch Innovationen in Daten und Modellierung hervorragende Leistungen erbringt. Wir haben erhebliche Ingenieuranstrengungen investiert, um ein Open-Source-Toolkit zur Synthese von GUI-Verankerungsdaten über mehrere Plattformen hinweg zu entwickeln, einschließlich Windows, Linux, MacOS, Android und dem Web. Unter Verwendung dieses Toolkits veröffentlichen wir das bisher größte Open-Source plattformübergreifende GUI-Verankerungskorpus, das über 13 Millionen GUI-Elemente enthält. Dieser Datensatz, kombiniert mit Innovationen im Modelltraining, bietet eine solide Grundlage für OS-Atlas, um GUI-Bildschirmfotos zu verstehen und auf nicht gesehene Schnittstellen zu verallgemeinern. Durch umfangreiche Evaluation über sechs Benchmarks, die drei verschiedene Plattformen (mobil, Desktop und Web) umfassen, zeigt OS-Atlas signifikante Leistungsverbesserungen gegenüber früheren State-of-the-Art-Modellen. Unsere Evaluation enthüllt auch wertvolle Erkenntnisse zur kontinuierlichen Verbesserung und Skalierung der agentischen Fähigkeiten von Open-Source-VLMs.

Personalisierung großer Sprachmodelle: Eine Übersicht
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

Die Personalisierung von Large Language Models (LLMs) ist in letzter Zeit mit einer Vielzahl von Anwendungen zunehmend wichtig geworden. Trotz der Bedeutung und des jüngsten Fortschritts haben sich die meisten bestehenden Arbeiten zu personalisierten LLMs entweder ausschließlich auf (a) die personalisierte Textgenerierung oder (b) die Nutzung von LLMs für personalisierungsbezogene Anwendungen wie Empfehlungssysteme konzentriert. In dieser Arbeit überbrücken wir erstmals die Kluft zwischen diesen beiden separaten Hauptrichtungen, indem wir eine Taxonomie für die Verwendung von personalisierten LLMs einführen und die wesentlichen Unterschiede und Herausforderungen zusammenfassen. Wir formalisieren die Grundlagen personalisierter LLMs, konsolidieren und erweitern Konzepte der Personalisierung von LLMs, definieren und diskutieren neue Facetten der Personalisierung, Nutzung und Anforderungen personalisierter LLMs. Anschließend vereinheitlichen wir die Literatur in diesen verschiedenen Bereichen und Nutzungsszenarien, indem wir systematische Taxonomien für die Granularität der Personalisierung, Personalisierungstechniken, Datensätze, Evaluationsmethoden und Anwendungen von personalisierten LLMs vorschlagen. Schließlich heben wir Herausforderungen und wichtige offene Probleme hervor, die noch angegangen werden müssen. Durch die Vereinheitlichung und Untersuchung aktueller Forschung anhand der vorgeschlagenen Taxonomien wollen wir einen klaren Leitfaden für die bestehende Literatur und verschiedene Facetten der Personalisierung in LLMs bieten, um sowohl Forscher als auch Praktiker zu unterstützen.

Konstante Beschleunigungsströmung
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

Die Verfahren zur geradlinigen Flusskorrektur und Rückfluss haben die schnelle Generierung durch die fortschreitende Geradlinigmachung von gewöhnlichen Differentialgleichungsflüssen erheblich vorangetrieben. Sie arbeiten unter der Annahme, dass Bild- und Rauschpaare, als Kopplungen bekannt, durch gerade Trajektorien mit konstanter Geschwindigkeit approximiert werden können. Wir beobachten jedoch, dass das Modellieren mit konstanter Geschwindigkeit und die Verwendung von Rückflussverfahren Grenzen bei der genauen Erfassung gerader Trajektorien zwischen Paaren aufweisen, was zu einer suboptimalen Leistung bei der Generierung in wenigen Schritten führt. Um diese Einschränkungen anzugehen, führen wir den Konstante-Beschleunigungs-Fluss (CAF) ein, ein neuartiges Framework, das auf einer einfachen konstanten Beschleunigungsgleichung basiert. CAF führt die Beschleunigung als zusätzliche erlernbare Variable ein, was eine ausdrucksstärkere und genauere Schätzung des ODE-Flusses ermöglicht. Darüber hinaus schlagen wir zwei Techniken vor, um die Schätzungsgenauigkeit weiter zu verbessern: die Anfangsgeschwindigkeitskonditionierung für das Beschleunigungsmodell und einen Rückflussprozess für die Anfangsgeschwindigkeit. Unsere umfassenden Studien an Spielzeugdatensätzen, CIFAR-10 und ImageNet 64x64 zeigen, dass CAF die state-of-the-art Baselines für die Ein-Schritt-Generierung übertrifft. Wir zeigen auch, dass CAF die Erhaltung und Umkehrung von Kopplungen in wenigen Schritten dramatisch verbessert im Vergleich zu geradlinigem Fluss. Der Code ist verfügbar unter https://github.com/mlvlab/CAF.

TOMATO: Bewertung der visuellen zeitlichen Denkfähigkeiten in multimodalen Grundlagenmodellen
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Bestehende Benchmarks heben oft die bemerkenswerte Leistung hervor, die von modernen Multimodalen Grundlagenmodellen (MFMs) erzielt wird, um den zeitlichen Kontext für das Verständnis von Videos zu nutzen. Doch wie gut führen die Modelle tatsächlich visuelle zeitliche Schlussfolgerungen durch? Unsere Untersuchung bestehender Benchmarks zeigt, dass diese Fähigkeit von MFMs wahrscheinlich überschätzt wird, da viele Fragen durch die Verwendung eines einzelnen, weniger oder nicht in der richtigen Reihenfolge angeordneten Frames gelöst werden können. Um aktuelle visuelle zeitliche Schlussfolgerungsaufgaben systematisch zu untersuchen, schlagen wir drei Prinzipien mit entsprechenden Metriken vor: (1) Multi-Frame-Gewinn, (2) Rahmenreihenfolgensensitivität und (3) Rahmeninformationsungleichheit. Unter Einhaltung dieser Prinzipien stellen wir TOMATO vor, Temporale Schlussfolgerung Multimodale Evaluation, einen neuartigen Benchmark, der entwickelt wurde, um die zeitlichen Schlussfolgerungsfähigkeiten von MFMs beim Verständnis von Videos rigoros zu bewerten. TOMATO umfasst 1.484 sorgfältig kuratierte, menschenannotierte Fragen, die sechs Aufgaben (d.h. Aktionsanzahl, Richtung, Rotation, Form & Trend, Geschwindigkeit & Frequenz und visuelle Hinweise) abdecken und auf 1.417 Videos angewendet werden, darunter 805 selbst aufgenommene und generierte Videos, die menschenzentrierte, realweltliche und simulierte Szenarien umfassen. Unsere umfassende Evaluation zeigt eine mensch-Modell-Leistungslücke von 57,3% beim bestperformenden Modell auf. Darüber hinaus zeigt unsere eingehende Analyse grundlegendere Einschränkungen über diese Lücke hinaus bei aktuellen MFMs auf. Obwohl sie Ereignisse in isolierten Frames genau erkennen können, scheitern sie daran, diese Frames als kontinuierliche Sequenz zu interpretieren. Wir sind der Überzeugung, dass TOMATO als entscheidende Testumgebung für die Bewertung der Multimodalen Grundlagenmodelle der nächsten Generation dienen wird und die Gemeinschaft dazu aufrufen wird, KI-Systeme zu entwickeln, die in der Lage sind, die Dynamik der menschlichen Welt durch die Videomodalität zu verstehen.

Zufällige autoregressive visuelle Generierung
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

Dieses Paper präsentiert Randomized AutoRegressive Modeling (RAR) für die visuelle Generierung, das eine neue state-of-the-art Leistung bei der Bildgenerierung erzielt, während es vollständig kompatibel mit Sprachmodellierungs-Frameworks bleibt. Das vorgeschlagene RAR ist einfach: Während eines Standard-Autoregressions-Trainingsprozesses mit einem Ziel der Vorhersage des nächsten Tokens wird die Eingabesequenz - typischerweise in Rasterform geordnet - mit einer Wahrscheinlichkeit r zufällig in verschiedene Faktorisierungsreihenfolgen umgeordnet, wobei r bei 1 beginnt und linear auf 0 abnimmt im Laufe des Trainings. Diese Trainingsstrategie des Abkühlens ermöglicht es dem Modell, zu lernen, die erwartete Wahrscheinlichkeit über alle Faktorisierungsreihenfolgen hinweg zu maximieren und somit die Fähigkeit des Modells zur Modellierung bidirektionaler Kontexte effektiv zu verbessern. Wichtig ist, dass RAR die Integrität des autoregressiven Modellierungs-Frameworks bewahrt, was die volle Kompatibilität mit Sprachmodellierung gewährleistet, während die Leistung bei der Bildgenerierung signifikant verbessert wird. Auf dem ImageNet-256 Benchmark erreicht RAR einen FID-Score von 1,48, der nicht nur die bisherige state-of-the-art autoregressive Bildgeneratoren übertrifft, sondern auch führende auf Diffusion basierende und maskierte Transformer-basierte Methoden übertrifft. Der Code und die Modelle werden unter https://github.com/bytedance/1d-tokenizer verfügbar gemacht.

DynaMath: Ein dynamischer visueller Benchmark zur Bewertung der mathematischen Schlussfolgerungssicherheit von Sprach-Visions-Modellen
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Die raschen Fortschritte bei Vision-Language-Modellen (VLMs) haben großes Potenzial gezeigt, um mathematische Denkaufgaben mit visuellem Kontext anzugehen. Im Gegensatz zu Menschen, die Lösungsschritte zu ähnlichen Problemen mit geringfügigen Änderungen zuverlässig anwenden können, haben wir festgestellt, dass führende VLMs wie GPT-4o in diesen Szenarien konsistent versagen können, was Einschränkungen in ihren mathematischen Denkfähigkeiten aufzeigt. In diesem Papier untersuchen wir die Robustheit mathematischer Denkfähigkeiten in VLMs und bewerten, wie gut diese Modelle unter verschiedenen Varianten derselben Fragestellung abschneiden, wie z.B. Änderungen in visuellen numerischen Werten oder Funktionsgraphen. Obwohl mehrere auf Vision basierende mathematische Benchmarks entwickelt wurden, um die Problemlösungsfähigkeiten von VLMs zu bewerten, enthalten diese Benchmarks nur statische Problemmengen und können die Robustheit mathematischer Denkfähigkeiten nicht einfach bewerten. Um diese Lücke zu schließen, stellen wir DynaMath vor, einen dynamischen visuellen Mathematik-Benchmark, der für eine eingehende Bewertung von VLMs konzipiert ist. DynaMath umfasst 501 hochwertige, mehrere Themen umfassende Ausgangsfragen, die jeweils als Python-Programm dargestellt sind. Diese Programme sind sorgfältig entworfen und annotiert, um die automatische Generierung einer viel größeren Menge konkreter Fragen zu ermöglichen, einschließlich vieler verschiedener Arten von visuellen und textuellen Variationen. DynaMath ermöglicht es uns, die Verallgemeinerungsfähigkeit von VLMs zu bewerten, indem wir ihre Leistung unter variierenden Eingangsbedingungen einer Ausgangsfrage bewerten. Wir haben 14 führende VLMs mit 5.010 generierten konkreten Fragen ausgewertet. Unsere Ergebnisse zeigen, dass die Modellgenauigkeit im Worst-Case, definiert als Prozentsatz der korrekt beantworteten Ausgangsfragen in allen 10 Varianten, signifikant niedriger ist als die Durchschnittsgenauigkeit. Unsere Analyse betont die Notwendigkeit, die Robustheit der Denkfähigkeiten von VLMs zu untersuchen, und DynaMath liefert wertvolle Erkenntnisse, um die Entwicklung zuverlässigerer Modelle für mathematisches Denken zu leiten.

Physik in der Vorhersage des nächsten Tokens
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

Wir haben die zugrunde liegende Physik in der Vorhersage des nächsten Tokens (NTP) entdeckt. Wir haben das Gesetz der Informationskonservierung innerhalb von NTP identifiziert und das Erste Gesetz der Informationskapazität (IC-1) vorgeschlagen, das zeigt, dass die Essenz des Intelligenzaufkommens in autoregressiven Modellen grundlegend ein Prozess des Informationsaustauschs ist. Wir haben auch das Landauer-Prinzip in NTP eingeführt, das das Zweite Gesetz der Informationskapazität (IC-2) formuliert, das die Beziehung zwischen dem Training von autoregressiven Modellen und dem Energieverbrauch festlegt. Darüber hinaus haben wir mehrere Korollare vorgestellt, die praktische Bedeutung für die Produktionspraxis haben. Schließlich haben wir die Kompatibilität und Ergänzung unserer Ergebnisse mit bestehenden Theorien validiert.

GPT oder BERT: Warum nicht beide?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Wir präsentieren einen einfachen Weg, um das maskierte Sprachmodellieren mit dem kausalen Sprachmodellieren zu verschmelzen. Dieses hybride Trainingsziel führt zu einem Modell, das die Stärken beider Modellierungsparadigmen innerhalb eines einzigen Transformer-Stacks kombiniert: GPT-BERT kann transparent wie jedes Standard-kausale oder maskierte Sprachmodell verwendet werden. Wir testen den Pretraining-Prozess, der dieses flexible Verhalten bei der BabyLM Challenge 2024 ermöglicht. Die Ergebnisse zeigen, dass das hybride Pretraining maskierte oder kausale Modelle allein übertrifft. Wir veröffentlichen die Modelle, Trainingskorpora und den Code offen.

Überblick über das Design von Benutzeroberflächen und Interaktionstechniken in generativen KI-Anwendungen
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Die Anwendungen der generativen KI sind äußerst beeindruckend geworden, und die Interaktion zwischen Benutzern und KI ist es noch mehr. Die aktuelle Literatur zur menschlichen KI-Interaktion hat einen breiten Blick darauf geworfen, wie Menschen mit generativer KI interagieren, aber es mangelt an Spezifität hinsichtlich der Benutzeroberflächengestaltungen und Muster, die zur Erstellung dieser Anwendungen verwendet werden. Daher präsentieren wir eine Umfrage, die umfassend Taxonomien darüber vorstellt, wie ein Mensch mit KI interagiert, und die Benutzerinteraktionsmuster, die entwickelt wurden, um die Bedürfnisse einer Vielzahl relevanter Anwendungsfälle zu erfüllen. Wir konzentrieren uns hauptsächlich auf benutzergeführte Interaktionen, indem wir Interaktionen untersuchen, die vom Benutzer initiiert werden und keine impliziten Signale des Benutzers beinhalten. Mit dieser Umfrage möchten wir ein Kompendium verschiedener Benutzerinteraktionsmuster erstellen, das als Referenz für Designer und Entwickler gleichermaßen verwendet werden kann. Dabei streben wir auch danach, die Einstiegshürde für diejenigen zu senken, die mehr über die Gestaltung von generativen KI-Anwendungen erfahren möchten.

Mode-VDM: Videodiffusionsmodell für virtuelles Anprobieren
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

Wir präsentieren Fashion-VDM, ein Videodiffusionsmodell (VDM) zur Erzeugung virtueller Anproben-Videos. Ausgehend von einem Eingabebild des Kleidungsstücks und einem Personenvideo zielt unsere Methode darauf ab, ein qualitativ hochwertiges Anprobenvideo der Person zu generieren, die das gegebene Kleidungsstück trägt, wobei die Identität und Bewegung der Person erhalten bleiben. Die bildbasierte virtuelle Anprobe hat beeindruckende Ergebnisse gezeigt; jedoch fehlen den bestehenden Methoden für die videobasierte virtuelle Anprobe (VVT) immer noch Details zur Kleidung und zeitliche Konsistenz. Um diese Probleme anzugehen, schlagen wir eine auf Diffusion basierende Architektur für die videobasierte virtuelle Anprobe vor, eine klassifiziererfreie Aufteilung für eine erhöhte Kontrolle über die Konditionierungseingaben und eine progressive zeitliche Trainingsstrategie für die Generierung von Videos in einem Durchgang mit 64 Frames und 512px. Wir zeigen auch die Wirksamkeit des gemeinsamen Trainings von Bildern und Videos für die Videoanprobe, insbesondere wenn Videodaten begrenzt sind. Unsere qualitativen und quantitativen Experimente zeigen, dass unser Ansatz den neuen Stand der Technik für die videobasierte virtuelle Anprobe setzt. Für zusätzliche Ergebnisse besuchen Sie unsere Projektseite: https://johannakarras.github.io/Fashion-VDM.

In-Context LoRA für Diffusions-Transformer
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Neueste Forschungen arXiv:2410.15027 haben die Verwendung von Diffusions-Transformern (DiTs) zur aufgabenagnostischen Bildgenerierung untersucht, indem sie einfach Aufmerksamkeitstoken über Bilder hinweg konkatenieren. Trotz erheblicher Rechenressourcen bleibt die Qualität der generierten Bilder jedoch suboptimal. In dieser Studie überprüfen und optimieren wir dieses Framework, indem wir die Hypothese aufstellen, dass Text-zu-Bild DiTs von Natur aus über In-Context-Generierungsfähigkeiten verfügen, die nur minimale Anpassungen erfordern, um sie zu aktivieren. Durch vielfältige Aufgabenexperimente zeigen wir qualitativ, dass bestehende Text-zu-Bild DiTs in der Lage sind, In-Context-Generierung effektiv durchzuführen, ohne jegliche Anpassungen vorzunehmen. Basierend auf dieser Erkenntnis schlagen wir eine bemerkenswert einfache Pipeline vor, um die In-Context-Fähigkeiten von DiTs zu nutzen: (1) Bilder anstelle von Token konkatenieren, (2) gemeinsame Beschriftung mehrerer Bilder durchführen und (3) eine aufgabenspezifische LoRA-Anpassung mit kleinen Datensätzen (z.B. 20 bis 100 Proben) anstelle einer vollständigen Parameteranpassung mit großen Datensätzen durchführen. Wir nennen unsere Modelle In-Context LoRA (IC-LoRA). Dieser Ansatz erfordert keine Änderungen an den originalen DiT-Modellen, sondern nur Änderungen an den Trainingsdaten. Bemerkenswerterweise generiert unsere Pipeline hochwertige Bildersets, die besser den Vorgaben entsprechen. Während unser Framework in Bezug auf die Anpassung der Daten aufgabenbezogen ist, bleibt es in Architektur und Pipeline aufgabenagnostisch und bietet ein leistungsstarkes Werkzeug für die Gemeinschaft sowie wertvolle Einblicke für weitere Forschungen zu aufgabenagnostischen Generierungssystemen auf Produktbasis. Wir veröffentlichen unseren Code, unsere Daten und Modelle unter https://github.com/ali-vilab/In-Context-LoRA.

Gesichtsanonymisierung leicht gemacht
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

Aktuelle Techniken zur Anonymisierung von Gesichtern hängen oft von Identitätsverlust ab, der durch Gesichtserkennungsmodelle berechnet wird, die ungenau und unzuverlässig sein können. Darüber hinaus erfordern viele Methoden zusätzliche Daten wie Gesichtslandmarken und Masken, um den Syntheseprozess zu steuern. Im Gegensatz dazu verwendet unser Ansatz Diffusionsmodelle nur mit einem Rekonstruktionsverlust, was den Bedarf an Gesichtslandmarken oder Masken beseitigt, während dennoch Bilder mit komplexen, feingliedrigen Details erzeugt werden. Wir haben unsere Ergebnisse anhand von zwei öffentlichen Benchmarks sowohl quantitativ als auch qualitativ validiert. Unser Modell erzielt Spitzenleistungen in drei Schlüsselbereichen: Identitätsanonymisierung, Erhaltung von Gesichtsmerkmalen und Bildqualität. Über seine Hauptfunktion der Anonymisierung hinaus kann unser Modell auch Gesichtsaustauschaufgaben durchführen, indem es ein zusätzliches Gesichtsbild als Eingabe integriert, was seine Vielseitigkeit und sein Potenzial für vielfältige Anwendungen zeigt. Unser Code und unsere Modelle sind unter https://github.com/hanweikung/face_anon_simple verfügbar.

CityGaussianV2: Effiziente und geometrisch genaue Rekonstruktion für groß angelegte Szenen
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

In letzter Zeit hat die 3D-Gaußsche Splatting (3DGS) die Rekonstruktion von Strahlungsfeldern revolutioniert und zeigt eine effiziente und hochwertige Synthese von neuartigen Ansichten. Die präzise Darstellung von Oberflächen, insbesondere in großen und komplexen Szenarien, bleibt jedoch aufgrund der unstrukturierten Natur von 3DGS eine bedeutende Herausforderung. In diesem Papier präsentieren wir CityGaussianV2, einen neuartigen Ansatz für die Rekonstruktion von groß angelegten Szenen, der kritische Herausforderungen in Bezug auf geometrische Genauigkeit und Effizienz angeht. Aufbauend auf den günstigen Verallgemeinerungsfähigkeiten des 2D-Gaußschen Splatting (2DGS) gehen wir auf seine Konvergenz- und Skalierbarkeitsprobleme ein. Speziell implementieren wir eine auf Zerlegungsgradienten basierende Verdichtungs- und Tiefenregressionstechnik, um unscharfe Artefakte zu beseitigen und die Konvergenz zu beschleunigen. Um die Skalierung zu ermöglichen, führen wir einen Elongationsfilter ein, der die durch die Degeneration von 2DGS verursachte Gaußsche Zählexplosion mildert. Darüber hinaus optimieren wir die CityGaussian-Pipeline für paralleles Training, erreichen eine bis zu 10-fache Kompression, mindestens 25% Zeitersparnis beim Training und eine 50%ige Verringerung des Speicherverbrauchs. Wir haben auch Standardgeometriebenchmarks unter groß angelegten Szenen etabliert. Experimentelle Ergebnisse zeigen, dass unsere Methode eine vielversprechende Balance zwischen visueller Qualität, geometrischer Genauigkeit sowie Speicher- und Trainingskosten bietet. Die Projektseite ist unter https://dekuliutesla.github.io/CityGaussianV2/ verfügbar.

Anpassung während des Lernens: Verankerung von LLMs für wissenschaftliche Probleme durch intelligente Werkzeugnutzungsanpassung
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Große Sprachmodelle (LLMs) zeigen vielversprechende Fähigkeiten bei der Lösung einfacher wissenschaftlicher Probleme, produzieren jedoch häufig Halluzinationen bei komplexen Problemen. Während die Integration von LLMs mit Werkzeugen die Zuverlässigkeit erhöhen kann, führt dieser Ansatz in der Regel zu einer Überabhängigkeit von Werkzeugen, was die Fähigkeit des Modells zur Lösung einfacher Probleme durch grundlegendes Denken verringert. Im Gegensatz dazu bewerten menschliche Experten zunächst die Problemkomplexität anhand ihres Fachwissens, bevor sie einen geeigneten Lösungsansatz wählen. Inspiriert von diesem menschlichen Problemlösungsprozess schlagen wir eine neuartige Zwei-Komponenten-Feinabstimmungsmethode vor. Im ersten Komponenten, dem World Knowledge Distillation (WKD), lernen LLMs direkt aus Lösungen, die mithilfe von Werkzeuginformationen generiert wurden, um Fachwissen zu internalisieren. Im zweiten Komponenten, der Tool Usage Adaptation (TUA), unterteilen wir Probleme in einfache und schwierige Kategorien basierend auf der direkten Antwortgenauigkeit des Modells. Während wir für einfache Probleme das gleiche Ausrichtungsziel wie bei WKD beibehalten, trainieren wir das Modell darauf, intelligent auf die Verwendung von Werkzeugen für anspruchsvollere Probleme umzuschalten. Wir validieren unsere Methode an sechs wissenschaftlichen Benchmark-Datensätzen aus den Bereichen Mathematik, Klimawissenschaft und Epidemiologie. Im Durchschnitt zeigen unsere Modelle eine Verbesserung der Antwortgenauigkeit um 28,18% und eine Steigerung der Werkzeugnutzungsgenauigkeit um 13,89% über alle Datensätze hinweg, wobei sie führende Modelle wie GPT-4o und Claude-3.5 übertreffen.

Zipfian-Entfärbung
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

Der Wort-Einbettungsraum in neuronalen Modellen ist verzerrt, und das Korrigieren davon kann die Leistung der Aufgabe verbessern. Wir weisen darauf hin, dass die meisten Ansätze zur Modellierung, Korrektur und Messung der Symmetrie eines Einbettungsraums implizit davon ausgehen, dass die Wortfrequenzen gleichmäßig sind; in Wirklichkeit folgen Wortfrequenzen einer stark ungleichmäßigen Verteilung, bekannt als Zipfsches Gesetz. Überraschenderweise verbessert allein die Durchführung einer PCA-Weißmachung, gewichtet nach der empirischen Wortfrequenz, die Zipfsches Gesetz folgt, signifikant die Leistung der Aufgabe und übertrifft etablierte Baselines. Aus theoretischer Sicht können sowohl unser Ansatz als auch bestehende Methoden klar kategorisiert werden: Wortrepräsentationen sind gemäß einer exponentiellen Familie mit entweder gleichmäßigen oder Zipfschen Basismaßen verteilt. Durch die Annahme des letzteren Ansatzes können wir natürlicherweise informative Niedrigfrequenzwörter hervorheben, sowohl in Bezug auf ihre Vektornorm, was aus der information-geometrischen Perspektive deutlich wird, als auch in Bezug auf die Verlustfunktionen für unausgeglichene Klassifikationen. Darüber hinaus bestätigt unsere Theorie, dass beliebte Methoden der natürlichen Sprachverarbeitung, wie Skip-Gram-Negative-Sampling, WhiteningBERT und kopflose Sprachmodelle, gut funktionieren, nur weil ihre Wort-Einbettungen die empirische Wortfrequenz in das zugrunde liegende probabilistische Modell kodieren.

LIBMoE: Eine Bibliothek für umfassendes Benchmarking von Mixture of Experts in großen Sprachmodellen
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

Mixture of Experts (MoEs) spielt eine wichtige Rolle bei der Entwicklung effizienterer und effektiverer großer Sprachmodelle (LLMs). Aufgrund der enormen Ressourcenanforderungen bleiben die Studien zu groß angelegten MoE-Algorithmen vielen Forschern unzugänglich. Diese Arbeit entwickelt LibMoE, ein umfassendes und modulares Framework zur Vereinfachung der Forschung, des Trainings und der Evaluation von MoE-Algorithmen. Basierend auf drei Kernprinzipien: (i) modulare Gestaltung, (ii) effizientes Training; (iii) umfassende Evaluation, macht LibMoE MoE in LLMs für eine breite Palette von Forschern zugänglicher, indem es die Trainings- und Evaluierungspipelines standardisiert. Unter Verwendung von LibMoE haben wir fünf führende MoE-Algorithmen über drei verschiedene LLMs und 11 Datensätze im Zero-Shot-Setting umfassend getestet. Die Ergebnisse zeigen, dass trotz der einzigartigen Eigenschaften alle MoE-Algorithmen bei einer Vielzahl von Aufgaben im Durchschnitt ähnlich abschneiden. Mit dem modularen Design und der umfangreichen Evaluation sind wir der Meinung, dass LibMoE für Forscher von unschätzbarem Wert sein wird, um bedeutende Fortschritte in Richtung der nächsten Generation von MoE und LLMs zu erzielen. Projektseite: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

HalloMeme: Integration von räumlichen Strickaufmerksamkeiten zur Einbettung von hochrangigen und detailreichen Bedingungen in Diffusionsmodellen
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

Wir schlagen eine effektive Methode zur Einfügung von Adaptern in Text-zu-Bild-Grundlagenmodelle vor, die die Ausführung komplexer nachgelagerter Aufgaben ermöglicht, während die Verallgemeinerungsfähigkeit des Basismodells erhalten bleibt. Die Kernidee dieser Methode besteht darin, den Aufmerksamkeitsmechanismus in Bezug auf 2D-Merkmalmaps zu optimieren, was die Leistung des Adapters verbessert. Dieser Ansatz wurde anhand der Aufgabe der Meme-Videoerstellung validiert und erzielte signifikante Ergebnisse. Wir hoffen, dass diese Arbeit Einblicke für die Nachschulungsaufgaben großer Text-zu-Bild-Modelle bieten kann. Darüber hinaus, da diese Methode eine gute Kompatibilität mit SD1.5-Derivatmodellen aufweist, hat sie einen gewissen Wert für die Open-Source-Community. Daher werden wir den zugehörigen Code veröffentlichen (https://songkey.github.io/hellomeme).

SambaMixer: Vorhersage des Gesundheitszustands von Li-Ionen-Batterien unter Verwendung von Mamba-Zustandsraummodellen
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

Der Gesundheitszustand (State of Health, SOH) einer Li-Ionen-Batterie ist ein entscheidender Parameter, der die verbleibende Kapazität und die verbleibende Lebensdauer der Batterie bestimmt. In diesem Paper schlagen wir SambaMixer vor, ein neuartiges strukturiertes Zustandsraummodell (State Space Model, SSM) zur Vorhersage des Gesundheitszustands von Li-Ionen-Batterien. Das vorgeschlagene SSM basiert auf der MambaMixer-Architektur, die entwickelt wurde, um multivariate Zeitssignale zu verarbeiten. Wir evaluieren unser Modell anhand des NASA-Batterieentladedatensatzes und zeigen, dass unser Modell auf diesem Datensatz die bisherigen Spitzenleistungen übertrifft. Darüber hinaus führen wir eine neuartige ankerbasierte Resampling-Methode ein, die sicherstellt, dass Zeitssignale die erwartete Länge haben und gleichzeitig als Augmentationstechnik dient. Abschließend konditionieren wir die Vorhersage anhand der Probenzeit und des Zykluszeitunterschieds unter Verwendung von Positionscodierungen, um die Leistung unseres Modells zu verbessern und Erholungseffekte zu erlernen. Unsere Ergebnisse belegen, dass unser Modell in der Lage ist, den SOH von Li-Ionen-Batterien mit hoher Genauigkeit und Robustheit vorherzusagen.

GRS-QA -- Datensatz zur graphbasierten Schlussfolgerung und strukturierten Fragebeantwortung
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

Große Sprachmodelle (LLMs) haben sich im Multi-Hop-Frage-Antworten (M-QA) aufgrund ihrer fortschrittlichen Fähigkeiten im logischen Denken hervorgetan. Allerdings bleibt der Einfluss der inhärenten logischen Strukturen auf die Leistung von LLMs im M-QA weitgehend unklar, hauptsächlich aufgrund des Mangels an QA-Datensätzen, die fein abgestufte logische Strukturen bereitstellen. Um diese Lücke zu schließen, stellen wir den Graphen-Logik-strukturierten Frage-Antworten-Datensatz (GRS-QA) vor, der sowohl semantische Kontexte als auch logische Strukturen für QA-Paare enthält. Im Gegensatz zu bestehenden M-QA-Datensätzen, in denen verschiedene logische Strukturen miteinander verflochten sind, erfasst GRS-QA explizit komplexe logische Pfade, indem es Logikgraphen konstruiert, in denen Knoten textuelle Kontexte darstellen und Kanten logische Flüsse anzeigen. Diese Logikgraphen unterschiedlicher Strukturen ermöglichen eine fein abgestufte Bewertung der logischen Fähigkeiten von LLMs über verschiedene logische Strukturen hinweg. Unsere empirische Analyse zeigt, dass LLMs sich unterschiedlich verhalten, wenn sie Fragen mit verschiedenen logischen Strukturen bearbeiten. Diese Erkenntnis erleichtert die Erforschung von textuellen Strukturen im Vergleich zu Semantik.

M2rc-Eval: Umfassende mehrsprachige Code-Vervollständigung auf Repository-Ebene - Evaluierung
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

Die Code-Vervollständigung auf Repository-Ebene hat in der Softwareentwicklung große Aufmerksamkeit erregt, und mehrere Benchmark-Datensätze wurden eingeführt. Allerdings konzentrieren sich bestehende Benchmark-Datensätze zur Code-Vervollständigung auf Repository-Ebene normalerweise auf eine begrenzte Anzahl von Sprachen (<5), was nicht die allgemeinen Code-Intelligenzfähigkeiten über verschiedene Sprachen hinweg für existierende Large Language Models (LLMs) bewerten kann. Darüber hinaus berichten die bestehenden Benchmarks in der Regel über Gesamtdurchschnittswerte verschiedener Sprachen, wobei die fein abgestuften Fähigkeiten in verschiedenen Vervollständigungsszenarien ignoriert werden. Daher schlagen wir zur Unterstützung der Forschung von Code-LLMs in mehrsprachigen Szenarien einen massiv mehrsprachigen Benchmark für die Code-Vervollständigung auf Repository-Ebene vor, der 18 Programmiersprachen abdeckt (genannt M2RC-EVAL), und zwei Arten von fein abgestuften Annotationen (d.h. auf Eimer-Ebene und semantischer Ebene) für verschiedene Vervollständigungsszenarien bereitstellt, wobei wir diese Annotationen basierend auf dem geparsten abstrakten Syntaxbaum erhalten. Darüber hinaus kuratieren wir auch ein massiv mehrsprachiges Anweisungskorpora M2RC-INSTRUCT-Datensatz, um die Code-Vervollständigungsfähigkeiten auf Repository-Ebene von existierenden Code-LLMs zu verbessern. Umfassende experimentelle Ergebnisse zeigen die Wirksamkeit unseres M2RC-EVAL und M2RC-INSTRUCT auf.

WikiNER-fr-gold: Ein Goldstandard NER-Korpus
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

In diesem Artikel behandeln wir die Qualität des WikiNER-Korpus, eines mehrsprachigen Korpus zur benannten Entitätenerkennung, und stellen eine konsolidierte Version davon bereit. Die Annotation von WikiNER wurde auf halbüberwachte Weise erstellt, d.h. es wurde keine manuelle Überprüfung im Nachhinein durchgeführt. Ein solcher Korpus wird als Silberstandard bezeichnet. In diesem Paper schlagen wir WikiNER-fr-gold vor, was eine überarbeitete Version des französischen Teils des WikiNER ist. Unser Korpus besteht aus zufällig ausgewählten 20% des ursprünglichen französischen Teilkorpus (26.818 Sätze mit 700k Tokens). Wir beginnen damit, die Entitätentypen in jeder Kategorie zusammenzufassen, um eine Anleitungsrichtlinie festzulegen, und gehen dann zur Überarbeitung des Korpus über. Abschließend präsentieren wir eine Analyse von Fehlern und Inkonsistenzen, die im WikiNER-fr-Korpus beobachtet wurden, und diskutieren potenzielle zukünftige Arbeitsrichtungen.

papers.title

papers.description

OS-ATLAS: Ein Grundlagen-Aktionsmodell für Generalist GUI-Agenten
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

Personalisierung großer Sprachmodelle: Eine Übersicht
Personalization of Large Language Models: A Survey

Oct 29

Konstante Beschleunigungsströmung
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

TOMATO: Bewertung der visuellen zeitlichen Denkfähigkeiten in multimodalen Grundlagenmodellen
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

Zufällige autoregressive visuelle Generierung
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: Ein dynamischer visueller Benchmark zur Bewertung der mathematischen Schlussfolgerungssicherheit von Sprach-Visions-Modellen
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

Physik in der Vorhersage des nächsten Tokens
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT oder BERT: Warum nicht beide?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

Überblick über das Design von Benutzeroberflächen und Interaktionstechniken in generativen KI-Anwendungen
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

Mode-VDM: Videodiffusionsmodell für virtuelles Anprobieren
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

In-Context LoRA für Diffusions-Transformer
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

Gesichtsanonymisierung leicht gemacht
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

CityGaussianV2: Effiziente und geometrisch genaue Rekonstruktion für groß angelegte Szenen
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

Anpassung während des Lernens: Verankerung von LLMs für wissenschaftliche Probleme durch intelligente Werkzeugnutzungsanpassung
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

Zipfian-Entfärbung
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

LIBMoE: Eine Bibliothek für umfassendes Benchmarking von Mixture of Experts in großen Sprachmodellen
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

HalloMeme: Integration von räumlichen Strickaufmerksamkeiten zur Einbettung von hochrangigen und detailreichen Bedingungen in Diffusionsmodellen
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

SambaMixer: Vorhersage des Gesundheitszustands von Li-Ionen-Batterien unter Verwendung von Mamba-Zustandsraummodellen
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

GRS-QA -- Datensatz zur graphbasierten Schlussfolgerung und strukturierten Fragebeantwortung
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

M2rc-Eval: Umfassende mehrsprachige Code-Vervollständigung auf Repository-Ebene - Evaluierung
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

WikiNER-fr-gold: Ein Goldstandard NER-Korpus
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau