papers.title

papers.description

MiniMax-01: Skalierung von Grundlagenmodellen mit Blitz-Aufmerksamkeit
MiniMax-01: Scaling Foundation Models with Lightning Attention

Jan 14

ByMiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu

300

Wir stellen die MiniMax-01-Serie vor, bestehend aus MiniMax-Text-01 und MiniMax-VL-01, die mit Spitzenmodellen vergleichbar sind und gleichzeitig über überlegene Fähigkeiten bei der Verarbeitung längerer Kontexte verfügen. Der Kern liegt in der Blitz-Aufmerksamkeit und ihrer effizienten Skalierung. Um die Rechenkapazität zu maximieren, integrieren wir sie mit dem Mixture of Experts (MoE), um ein Modell mit 32 Experten und insgesamt 456 Milliarden Parametern zu schaffen, von denen 45,9 Milliarden für jedes Token aktiviert sind. Wir entwickeln eine optimierte parallele Strategie und hoch effiziente Berechnungs-Kommunikations-Überlappungstechniken für MoE und Blitz-Aufmerksamkeit. Dieser Ansatz ermöglicht es uns, effizientes Training und Inferenz auf Modellen mit Hunderten von Milliarden Parametern über Kontexte mit Millionen von Tokens durchzuführen. Das Kontextfenster von MiniMax-Text-01 kann während des Trainings bis zu 1 Million Tokens erreichen und sich während der Inferenz auf 4 Millionen Tokens zu einem erschwinglichen Preis extrapolieren. Unser Vision-Sprachmodell, MiniMax-VL-01, wird durch kontinuierliches Training mit 512 Milliarden Vision-Sprach-Tokens aufgebaut. Experimente sowohl auf Standard- als auch auf firmeninternen Benchmarks zeigen, dass unsere Modelle die Leistung von Spitzenmodellen wie GPT-4o und Claude-3.5-Sonnet erreichen, während sie ein 20-32 Mal längeres Kontextfenster bieten. Wir veröffentlichen MiniMax-01 öffentlich unter https://github.com/MiniMax-AI.

MangaNinja: Linienkunst-Kolorierung mit präziser Referenzverfolgung
MangaNinja: Line Art Colorization with Precise Reference Following

Jan 14

ByZhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo

Abgeleitet von Diffusionsmodellen, spezialisiert sich MangaNinjia auf die Aufgabe der referenzgesteuerten Kolorierung von Linienkunst. Wir integrieren zwei durchdachte Designs, um eine präzise Übertragung von Charakterdetails sicherzustellen, darunter ein Patch-Shuffling-Modul zur Erleichterung des Lernens von Entsprechungen zwischen dem Referenzfarbbild und der Ziel-Linienkunst sowie ein punktgesteuertes Steuerschema zur Ermöglichung einer feinkörnigen Farbanpassung. Experimente an einem selbst gesammelten Benchmark zeigen die Überlegenheit unseres Modells gegenüber aktuellen Lösungen in Bezug auf präzise Kolorierung. Wir präsentieren außerdem das Potenzial der vorgeschlagenen interaktiven Punktsteuerung bei der Bewältigung anspruchsvoller Fälle, der künstlerischen Kolorierung von Charakteren, der Harmonisierung mit mehreren Referenzen, jenseits der Reichweite bestehender Algorithmen.

3DIS-FLUX: Einfache und effiziente Multi-Instanz-Generierung mit DiT-Rendering.
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Jan 9

ByDewei Zhou, Ji Xie, Zongxin Yang, Yi Yang

Die wachsende Nachfrage nach steuerbaren Ausgaben in der Text-zu-Bild-Erzeugung hat signifikante Fortschritte in der Multi-Instanz-Erzeugung (MIG) vorangetrieben, was es Benutzern ermöglicht, sowohl Instanzlayouts als auch Attribute zu definieren. Derzeit basieren die State-of-the-Art-Methoden in der MIG hauptsächlich auf Adaptern. Diese Methoden erfordern jedoch jedes Mal, wenn ein fortschrittlicheres Modell veröffentlicht wird, das Neutrainieren eines neuen Adapters, was zu erheblichem Ressourcenverbrauch führt. Eine Methodik namens Tiefengetriebene Entkoppelte Instanzensynthese (3DIS) wurde eingeführt, die die MIG in zwei verschiedene Phasen entkoppelt: 1) Tiefenbasierte Szenenkonstruktion und 2) Detailrendering mit weitgehend vorab trainierten Tiefensteuerungsmodellen. Die 3DIS-Methode erfordert das Training des Adapters ausschließlich während der Szenenkonstruktionsphase und ermöglicht es verschiedenen Modellen, training-free Detailrendering durchzuführen. Anfangs konzentrierte sich 3DIS auf Rendering-Techniken, die U-Net-Architekturen wie SD1.5, SD2 und SDXL nutzen, ohne das Potenzial von neueren DiT-basierten Modellen wie FLUX zu erkunden. In diesem Artikel präsentieren wir 3DIS-FLUX, eine Erweiterung des 3DIS-Frameworks, das das FLUX-Modell für verbesserte Rendering-Fähigkeiten integriert. Speziell verwenden wir das FLUX.1-Depth-dev-Modell für die Tiefenkarten-gesteuerte Bildgenerierung und führen einen Detail-Renderer ein, der die Attention Mask im Joint Attention-Mechanismus von FLUX basierend auf Layout-Informationen manipuliert. Dieser Ansatz ermöglicht das präzise Rendern feingranularer Attribute jeder Instanz. Unsere experimentellen Ergebnisse zeigen, dass 3DIS-FLUX, das das FLUX-Modell nutzt, die ursprüngliche 3DIS-Methode, die SD2 und SDXL verwendete, übertrifft und aktuelle State-of-the-Art-Adapter-basierte Methoden sowohl in Bezug auf Leistung als auch Bildqualität übertrifft. Projektseite: https://limuloo.github.io/3DIS/.

Diffusion Adversarial Post-Training für die Ein-Schritt-Videoerzeugung
Diffusion Adversarial Post-Training for One-Step Video Generation

Jan 14

ByShanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang

Die Diffusionsmodelle werden weit verbreitet für die Generierung von Bildern und Videos eingesetzt, jedoch ist ihr iterativer Generierungsprozess langsam und aufwendig. Während bestehende Destillationsansätze das Potenzial für die Ein-Schritt-Generierung im Bildbereich gezeigt haben, leiden sie immer noch unter signifikanter Qualitätsverschlechterung. In dieser Arbeit schlagen wir das Adversarial Post-Training (APT) gegen reale Daten nach der Diffusions-Vortrainierung für die Ein-Schritt-Video-Generierung vor. Um die Trainingsstabilität und -qualität zu verbessern, führen wir mehrere Verbesserungen an der Modellarchitektur und den Trainingsverfahren ein, zusammen mit einem approximierten R1-Regularisierungsziel. Empirisch zeigen unsere Experimente, dass unser adversarial nachtrainiertes Modell, Seaweed-APT, in Echtzeit 2-Sekunden-Videos mit 1280x720 Pixeln und 24fps generieren kann, indem es einen einzigen Vorwärtsschritt ausführt. Darüber hinaus ist unser Modell in der Lage, 1024px-Bilder in einem Schritt zu generieren und eine Qualität zu erreichen, die mit state-of-the-art Methoden vergleichbar ist.

Omni-RGPT: Vereinheitlichung des Verständnisses von Bild- und Video-Regionen auf Token-Ebene
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Jan 14

ByMiran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma

Wir präsentieren Omni-RGPT, ein multimodales großes Sprachmodell, das darauf ausgelegt ist, die regionale Ebene für sowohl Bilder als auch Videos zu verstehen. Um eine konsistente Repräsentation von Regionen über Raum-zeitliche Dimensionen hinweg zu erreichen, führen wir Token Mark ein, eine Gruppe von Token, die die Zielregionen im visuellen Merkmalsraum hervorheben. Diese Token werden direkt in räumliche Regionen eingebettet, indem Region-Prompts (z. B. Boxen oder Masken) verwendet werden, und gleichzeitig in den Text-Prompt eingebunden, um das Ziel zu spezifizieren und eine direkte Verbindung zwischen visuellen und Text-Token herzustellen. Um eine robuste Video-Verständnis zu unterstützen, ohne Tracklets zu benötigen, führen wir eine zusätzliche Aufgabe ein, die Token Mark durch die Nutzung der Konsistenz der Token lenkt und eine stabile Interpretation der Regionen über das Video ermöglicht. Darüber hinaus stellen wir einen groß angelegten Video-Anweisungsdatensatz auf Regionsebene vor (RegVID-300k). Omni-RGPT erzielt Spitzenleistungen bei Bild- und Video-basierten Common-Sense-Reasoning-Benchmarks und zeigt eine starke Leistung bei Bildunterschriften und Verweisausdrucksverständnis-Aufgaben.

Polsterungston: Eine mechanistische Analyse von Polsterungstoken in T2I-Modellen
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Jan 12

ByMichael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov

Text-zu-Bild (T2I) Diffusionsmodelle verlassen sich auf codierte Anweisungen, um den Bildgenerierungsprozess zu lenken. Typischerweise werden diese Anweisungen durch das Hinzufügen von Fülltokens vor der Textcodierung auf eine feste Länge erweitert. Obwohl dies eine Standardpraxis ist, wurde der Einfluss von Fülltokens auf den Bildgenerierungsprozess bisher nicht untersucht. In dieser Arbeit führen wir die erste eingehende Analyse der Rolle von Fülltokens in T2I-Modellen durch. Wir entwickeln zwei kausale Techniken, um zu analysieren, wie Informationen in der Repräsentation von Tokens über verschiedene Komponenten des T2I-Pipelines codiert werden. Unter Verwendung dieser Techniken untersuchen wir, wann und wie Fülltokens den Bildgenerierungsprozess beeinflussen. Unsere Ergebnisse zeigen drei unterschiedliche Szenarien auf: Fülltokens können die Ausgabe des Modells während der Textcodierung, während des Diffusionsprozesses oder effektiv ignorieren. Darüber hinaus identifizieren wir wichtige Beziehungen zwischen diesen Szenarien und der Architektur des Modells (Kreuz- oder Selbst-Aufmerksamkeit) und seinem Schulungsprozess (gefrorener oder trainierter Textcodierer). Diese Erkenntnisse tragen zu einem tieferen Verständnis der Mechanismen von Fülltokens bei und können zukünftige Modellentwürfe und Schulungspraktiken in T2I-Systemen beeinflussen.

Ein Multi-Modaler KI-Copilot für die Einzelzellanalyse mit Anleitungsfunktion
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Jan 14

ByYin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen

Große Sprachmodelle zeichnen sich durch ihre Fähigkeit aus, komplexe natürlichsprachliche Anweisungen zu interpretieren, was es ihnen ermöglicht, eine Vielzahl von Aufgaben auszuführen. In den Lebenswissenschaften dient die Einzelzell-RNA-Sequenzierung (scRNA-seq) als die "Sprache der Zellbiologie", da sie komplexe Genexpressionsmuster auf Einzelzellebene erfasst. Die Interaktion mit dieser "Sprache" durch herkömmliche Werkzeuge ist jedoch oft ineffizient und unintuitiv, was Forscher vor Herausforderungen stellt. Um diese Einschränkungen zu überwinden, präsentieren wir InstructCell, einen multimodalen KI-Copiloten, der natürliche Sprache als Medium für eine direktere und flexiblere Einzelzellanalyse nutzt. Wir erstellen einen umfassenden multimodalen Anweisungsdatensatz, der textbasierte Anweisungen mit scRNA-seq-Profilen aus verschiedenen Geweben und Arten kombiniert. Aufbauend darauf entwickeln wir eine multimodale Zellspracharchitektur, die in der Lage ist, beide Modalitäten gleichzeitig zu interpretieren und zu verarbeiten. InstructCell ermöglicht es Forschern, wichtige Aufgaben wie die Zelltypenannotation, die bedingte Pseudozellenerzeugung und die Vorhersage der Arzneimittelsensitivität mithilfe einfacher natürlichsprachlicher Befehle zu erledigen. Umfangreiche Evaluationen zeigen, dass InstructCell konsistent die Leistung bestehender Einzelzell-Grundlagenmodelle erfüllt oder übertrifft und sich an verschiedene experimentelle Bedingungen anpasst. Vor allem bietet InstructCell ein zugängliches und intuitives Werkzeug zur Erkundung komplexer Einzelzellendaten, senkt technische Hürden und ermöglicht tiefere biologische Erkenntnisse.

PokerBench: Training großer Sprachmodelle, um professionelle Pokerspieler zu werden
PokerBench: Training Large Language Models to become Professional Poker Players

Jan 14

ByRichard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli

Wir stellen PokerBench vor - einen Benchmark zur Bewertung der Poker-Spielkompetenz großer Sprachmodelle (LLMs). Da LLMs in traditionellen NLP-Aufgaben herausragende Leistungen erbringen, stellt ihre Anwendung auf komplexe, strategische Spiele wie Poker eine neue Herausforderung dar. Poker, ein Spiel mit unvollständigen Informationen, erfordert eine Vielzahl von Fähigkeiten wie Mathematik, logisches Denken, Planung, Strategie und ein tiefes Verständnis der Spieltheorie und der menschlichen Psychologie. Dies macht Poker zur idealen nächsten Herausforderung für große Sprachmodelle. PokerBench besteht aus einer umfassenden Zusammenstellung von 11.000 wichtigsten Szenarien, aufgeteilt in Pre-Flop- und Post-Flop-Spiel, die in Zusammenarbeit mit geschulten Pokerspielern entwickelt wurden. Wir bewerten prominente Modelle wie GPT-4, ChatGPT 3.5 sowie verschiedene Llama- und Gemma-Serienmodelle und stellen fest, dass alle modernen LLMs unterdurchschnittlich in der optimalen Poker-Spielweise sind. Nach Feinabstimmung zeigen diese Modelle jedoch deutliche Verbesserungen. Wir validieren PokerBench, indem wir Modelle mit unterschiedlichen Punktzahlen gegeneinander antreten lassen und zeigen, dass höhere Punktzahlen bei PokerBench zu höheren Gewinnraten in tatsächlichen Pokerspielen führen. Durch das Gameplay zwischen unserem feinabgestimmten Modell und GPT-4 identifizieren wir auch die Grenzen des einfachen überwachten Feinabstimmens zur Erlangung einer optimalen Spielstrategie und weisen auf die Notwendigkeit fortgeschrittenerer Methoden hin, um Sprachmodelle effektiv für Spiele zu trainieren. PokerBench bietet somit einen einzigartigen Benchmark für eine schnelle und zuverlässige Bewertung der Poker-Spielkompetenz von LLMs sowie einen umfassenden Benchmark zur Untersuchung des Fortschritts von LLMs in komplexen Spiel-Szenarien. Der Datensatz und der Code werden unter folgendem Link verfügbar gemacht: https://github.com/pokerllm/pokerbench.

FramePainter: Die Ausstattung der interaktiven Bildbearbeitung mit Video-Diffusionsprioritäten
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Jan 14

ByYabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo

Die interaktive Bildbearbeitung ermöglicht es Benutzern, Bilder durch visuelle Interaktionsoperationen wie Zeichnen, Klicken und Ziehen zu modifizieren. Bestehende Methoden konstruieren solche Überwachungssignale aus Videos, da sie erfassen, wie sich Objekte durch verschiedene physische Interaktionen verändern. Diese Modelle basieren jedoch in der Regel auf Text-zu-Bild-Diffusionsmodellen, was massive Trainingsdaten und einen zusätzlichen Referenz-Encoder erfordert, um reale Dynamiken und visuelle Konsistenz zu erlernen. In diesem Paper formulieren wir diese Aufgabe als ein Problem der Bild-zu-Video-Generierung um, um leistungsstarke Videodiffusionsprioritäten zu erben, um die Trainingskosten zu reduzieren und die zeitliche Konsistenz zu gewährleisten. Speziell stellen wir FramePainter als eine effiziente Instanziierung dieser Formulierung vor. Initialisiert mit Stable Video Diffusion, verwendet es nur einen leichten, spärlichen Steuer-Encoder, um Bearbeitungssignale einzuführen. Angesichts der Einschränkungen der zeitlichen Aufmerksamkeit bei der Bewältigung großer Bewegungen zwischen zwei Frames schlagen wir außerdem eine passende Aufmerksamkeit vor, um das Rezeptive Feld zu vergrößern und eine dichte Korrespondenz zwischen bearbeiteten und Quellbild-Token zu fördern. Wir heben die Wirksamkeit und Effizienz von FramePainter bei verschiedenen Bearbeitungssignalen hervor: Es übertrifft deutlich frühere State-of-the-Art-Methoden mit weit weniger Trainingsdaten und erreicht eine hochgradig nahtlose und kohärente Bearbeitung von Bildern, z. B. automatische Anpassung der Reflexion der Tasse. Darüber hinaus zeigt FramePainter auch eine außergewöhnliche Verallgemeinerung in Szenarien, die in realen Videos nicht vorhanden sind, z. B. die Umwandlung des Clownfischs in eine haiähnliche Form. Unser Code wird unter https://github.com/YBYBZhang/FramePainter verfügbar sein.

Demokratisierung von Text-zu-Bild Masken-gesteuerten Generativen Modellen mit kompakten textbewussten eindimensionalen Tokens.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Jan 13

ByDongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen

Bild-Tokenisierer bilden das Fundament moderner text-zu-Bild-generierender Modelle, sind jedoch berüchtigt schwer zu trainieren. Darüber hinaus stützen sich die meisten bestehenden Text-zu-Bild-Modelle auf umfangreiche, hochwertige private Datensätze, was ihre Reproduzierbarkeit erschwert. In dieser Arbeit stellen wir den Text-Aware Transformer-basierten 1-Dimensional Tokenizer (TA-TiTok) vor, einen effizienten und leistungsstarken Bild-Tokenisierer, der entweder diskrete oder kontinuierliche 1-dimensionale Tokens nutzen kann. TA-TiTok integriert auf einzigartige Weise textuelle Informationen während der Tokenizer-Decodierungsphase (d. h. der Ent-Tokenisierung), was die Konvergenz beschleunigt und die Leistung verbessert. TA-TiTok profitiert auch von einem vereinfachten, aber effektiven Ein-Stufen-Trainingsprozess, der die Notwendigkeit für die komplexe zweistufige Destillation, die bei früheren 1-dimensionalen Tokenisierern verwendet wurde, beseitigt. Dieses Design ermöglicht eine nahtlose Skalierbarkeit auf große Datensätze. Aufbauend darauf stellen wir eine Familie von Text-zu-Bild Masked Generative Models (MaskGen) vor, die ausschließlich auf offenen Daten trainiert werden und vergleichbare Leistungen wie Modelle erzielen, die auf privaten Daten trainiert wurden. Unser Ziel ist es, sowohl die effizienten, leistungsstarken TA-TiTok-Tokenisierer als auch die offenen Daten und Gewichte verwendenden MaskGen-Modelle zu veröffentlichen, um den breiteren Zugang zu fördern und das Feld der text-zu-Bild Masked Generative Models zu demokratisieren.

HALoGEN: Fantastische LLM-Halluzinationen und wo man sie findet
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Jan 14

ByAbhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi

Trotz ihrer beeindruckenden Fähigkeit, hochwertigen und fließenden Text zu generieren, erzeugen generative große Sprachmodelle (LLMs) auch Halluzinationen: Aussagen, die nicht mit etabliertem Weltwissen oder dem bereitgestellten Eingabekontext übereinstimmen. Die Messung von Halluzinationen kann jedoch herausfordernd sein, da die Überprüfung von Modellgenerierungen durch Menschen in Echtzeit sowohl teuer als auch zeitaufwändig ist. In dieser Arbeit veröffentlichen wir HALoGEN, einen umfassenden Halluzinationsbenchmark, bestehend aus: (1) 10.923 Anfragen für generative Modelle, die neun Bereiche abdecken, darunter Programmierung, wissenschaftliche Zuschreibung und Zusammenfassung, und (2) automatischen Hochpräzisionsverifiern für jeden Anwendungsfall, die LLM-Generierungen in atomare Einheiten zerlegen und jede Einheit mit einer hochwertigen Wissensquelle überprüfen. Wir verwenden dieses Framework, um etwa 150.000 Generierungen von 14 Sprachmodellen zu evaluieren und festzustellen, dass selbst die leistungsstärksten Modelle von Halluzinationen durchsetzt sind (manchmal bis zu 86% der generierten atomaren Fakten je nach Bereich). Wir definieren weiterhin eine neue Fehlerklassifizierung für LLM-Halluzinationen, basierend darauf, ob sie wahrscheinlich aus falscher Erinnerung an Trainingsdaten (Typ A-Fehler), falschem Wissen in Trainingsdaten (Typ B-Fehler) oder Fälschung (Typ C-Fehler) resultieren. Wir hoffen, dass unser Framework eine Grundlage für die systematische Untersuchung der Ursachen von Halluzinationen bei generativen Modellen bietet und die Entwicklung vertrauenswürdiger großer Sprachmodelle vorantreibt.

Tarsier2: Fortschritte bei großen Vision-Language-Modellen von detaillierten Video-Beschreibungen zu umfassendem Video-Verständnis
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Jan 14

ByLiping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin

Wir stellen Tarsier2 vor, ein hochmodernes großes Modell für die Verbindung von Vision und Sprache (LVLM), das darauf ausgelegt ist, detaillierte und präzise Videobeschreibungen zu generieren und gleichzeitig über herausragende allgemeine Verständnisfähigkeiten für Videos zu verfügen. Tarsier2 erzielt signifikante Fortschritte durch drei Schlüsselverbesserungen: (1) Skalierung des Vortrainingsdatensatzes von 11M auf 40M Video-Text-Paare, was sowohl das Volumen als auch die Vielfalt bereichert; (2) Durchführung einer feinkörnigen zeitlichen Abstimmung während des überwachten Feintunings; (3) Verwendung von modellbasiertem Sampling zur automatischen Erstellung von Präferenzdaten und Anwendung des DPO-Trainings zur Optimierung. Umfangreiche Experimente zeigen, dass Tarsier2-7B in detaillierten Videobeschreibungsaufgaben durchgehend führende proprietäre Modelle, einschließlich GPT-4o und Gemini 1.5 Pro, übertrifft. Auf dem DREAM-1K-Benchmark verbessert Tarsier2-7B den F1-Wert um 2,8\% gegenüber GPT-4o und um 5,8\% gegenüber Gemini-1.5-Pro. In menschlichen Seit-an-Seit-Bewertungen zeigt Tarsier2-7B einen Leistungsvorteil von +8,6\% gegenüber GPT-4o und +24,9\% gegenüber Gemini-1.5-Pro. Tarsier2-7B erzielt auch neue Spitzenwerte in 15 öffentlichen Benchmarks, die Aufgaben wie Video-Fragenbeantwortung, Video-Verankerung, Halluzinationstest und verkörperte Fragenbeantwortung umfassen, und zeigt damit seine Vielseitigkeit als robustes allgemeines Modell für die Verbindung von Vision und Sprache.

Verbesserung der automatisierten Interpretierbarkeit mit outputzentrierten Merkmalsbeschreibungen
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Jan 14

ByYoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva

Automatisierte Interpretierbarkeits-Pipelines generieren natürlichsprachliche Beschreibungen für die von Merkmalen in großen Sprachmodellen (LLMs) repräsentierten Konzepte, wie z.B. Pflanzen oder das erste Wort in einem Satz. Diese Beschreibungen werden mithilfe von Eingaben abgeleitet, die das Merkmal aktivieren, das eine Dimension oder eine Richtung im Darstellungsraum des Modells sein kann. Die Identifizierung aktivierender Eingaben ist jedoch kostspielig, und die mechanistische Rolle eines Merkmals im Verhalten des Modells wird sowohl davon bestimmt, wie Eingaben dazu führen, dass ein Merkmal aktiviert wird, als auch davon, wie die Aktivierung des Merkmals die Ausgaben beeinflusst. Durch die Verwendung von Lenkungsbewertungen zeigen wir auf, dass aktuelle Pipelines Beschreibungen liefern, die den kausalen Effekt des Merkmals auf die Ausgaben nicht erfassen. Um dies zu beheben, schlagen wir effiziente, ausgabenzentrierte Methoden zur automatischen Generierung von Merkmalsbeschreibungen vor. Diese Methoden verwenden die nach der Merkmalstimulation stärker gewichteten Token oder die Tokens mit dem höchsten Gewicht nach direkter Anwendung des Vokabulars "Unembedding" auf das Merkmal. Unsere ausgabenzentrierten Beschreibungen erfassen den kausalen Effekt eines Merkmals auf die Modellausgaben besser als eingabenzentrierte Beschreibungen, aber die Kombination beider führt zu der besten Leistung sowohl bei Eingabe- als auch bei Ausgabebewertungen. Schließlich zeigen wir, dass ausgabenzentrierte Beschreibungen verwendet werden können, um Eingaben zu finden, die Merkmale aktivieren, die zuvor als "inaktiv" betrachtet wurden.

OpenCSG Chinese Corpus: Eine Reihe hochwertiger chinesischer Datensätze für das Training von LLM.
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Jan 14

ByYijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, aber ihr Erfolg hängt stark von der Qualität der vortrainierten Korpora ab. Für chinesische LLMs stellt die Knappheit hochwertiger chinesischer Datensätze eine bedeutende Herausforderung dar, die oft ihre Leistung einschränkt. Um dieses Problem anzugehen, schlagen wir das OpenCSG Chinese Corpus vor, eine Reihe von hochwertigen Datensätzen, die speziell für das Vortraining, die Nachschulung und Feinabstimmung von LLMs konzipiert sind. Dieser Korpus umfasst Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese und Smoltalk-chinese, von denen jeder unterschiedliche Merkmale aufweist: Die Fineweb-edu-Datensätze konzentrieren sich auf gefilterte, hochwertige Inhalte aus verschiedenen chinesischen Webquellen; Cosmopedia-chinese bietet synthetische, lehrbuchartige Daten für wissensintensives Training; und Smoltalk-chinese betont stilistische und vielfältige Chat-Format-Daten. Das OpenCSG Chinese Corpus zeichnet sich durch seinen hochwertigen Text, die vielfältige Abdeckung über verschiedene Bereiche hinweg und skalierbare, reproduzierbare Datenkurationsprozesse aus. Darüber hinaus führten wir umfangreiche experimentelle Analysen durch, einschließlich Bewertungen an kleineren Parametermodellen, die signifikante Leistungsverbesserungen in Aufgaben wie C-Eval zeigten und damit die Wirksamkeit des Korpus für das Training chinesischer LLMs verdeutlichten.

MatchAnything: Universelles Cross-Modalitäts-Bildabgleichen mit groß angelegtem Vortraining
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Jan 13

ByXingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou

Die Bildübereinstimmung, die darauf abzielt, entsprechende Pixelpositionen zwischen Bildern zu identifizieren, ist in einer Vielzahl wissenschaftlicher Disziplinen entscheidend und unterstützt die Bildregistrierung, Fusion und Analyse. In den letzten Jahren haben bildbasierte Übereinstimmungsalgorithmen, die auf Deep Learning basieren, Menschen dramatisch übertroffen, indem sie schnell und präzise große Mengen von Übereinstimmungen finden. Bei der Bearbeitung von Bildern, die unter verschiedenen Bildgebungsmodalitäten aufgenommen wurden und zu erheblichen Erscheinungsänderungen führen, verschlechtert sich die Leistung dieser Algorithmen jedoch oft aufgrund des Mangels an annotierten Trainingsdaten für die Kreuzmodalität. Diese Einschränkung behindert Anwendungen in verschiedenen Bereichen, die auf mehrere Bildmodalitäten angewiesen sind, um ergänzende Informationen zu erhalten. Um diese Herausforderung anzugehen, schlagen wir ein groß angelegtes Vortrainierungs-Framework vor, das synthetische Trainungssignale für die Kreuzmodalität verwendet und vielfältige Daten aus verschiedenen Quellen integriert, um Modelle zu trainieren, um grundlegende Strukturen in Bildern zu erkennen und abzugleichen. Diese Fähigkeit ist auf reale, unerkannte Kreuzmodalitäts-Bildübereinstimmungsaufgaben übertragbar. Unsere Haupterkenntnis ist, dass das mit unserem Framework trainierte Übereinstimmungsmodell eine bemerkenswerte Verallgemeinerbarkeit über mehr als acht unerkannte Kreuzmodalitäts-Registrierungsaufgaben hinweg mit demselben Netzwerkgewicht erreicht, wobei es vorhandene Methoden deutlich übertrifft, ob sie für die Verallgemeinerung konzipiert sind oder für spezifische Aufgaben maßgeschneidert wurden. Dieser Fortschritt verbessert signifikant die Anwendbarkeit von Bildübereinstimmungstechnologien in verschiedenen wissenschaftlichen Disziplinen und ebnet den Weg für neue Anwendungen in der Multi-Modalitäts-Analyse von menschlicher und künstlicher Intelligenz und darüber hinaus.

AfriHate: Eine mehrsprachige Sammlung von Hassrede und beleidigender Sprache Datensätzen für afrikanische Sprachen
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Jan 14

ByShamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum

Hassrede und beleidigende Sprache sind globale Phänomene, die soziokulturelles Hintergrundwissen erfordern, um verstanden, identifiziert und moderiert zu werden. In vielen Regionen des Globalen Südens wurden jedoch mehrere dokumentierte Fälle von (1) fehlender Moderation und (2) Zensur aufgrund der Abhängigkeit von Stichworterkennung außerhalb des Kontextes beobachtet. Darüber hinaus standen häufig prominente Persönlichkeiten im Mittelpunkt des Moderationsprozesses, während umfangreiche und gezielte Hassrede-Kampagnen gegen Minderheiten übersehen wurden. Diese Einschränkungen sind hauptsächlich auf den Mangel an hochwertigen Daten in den lokalen Sprachen und das Versäumnis zurückzuführen, lokale Gemeinschaften in die Datensammlung, Annotation und Moderationsprozesse einzubeziehen. Um dieses Problem anzugehen, präsentieren wir AfriHate: eine mehrsprachige Sammlung von Datensätzen zu Hassrede und beleidigender Sprache in 15 afrikanischen Sprachen. Jedes Beispiel in AfriHate wird von Muttersprachlern annotiert, die mit der lokalen Kultur vertraut sind. Wir berichten über die Herausforderungen im Zusammenhang mit der Erstellung der Datensätze und präsentieren verschiedene Baseline-Ergebnisse der Klassifizierung mit und ohne Verwendung von LLMs. Die Datensätze, individuellen Annotationen und Hassrede- und beleidigende Sprache-Lexika sind auf https://github.com/AfriHate/AfriHate verfügbar.

Graphbasiertes Schlussfolgern und Wissenserweiterung vor Ort mit Graph-PReFLexOR.
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Jan 14

ByMarkus J. Buehler

Die Verfolgung automatisierter wissenschaftlicher Entdeckungen hat den Fortschritt von symbolischer Logik bis zur modernen KI vorangetrieben und neue Grenzen im Bereich des Schlussfolgerns und der Mustererkennung geschaffen. Transformer fungieren als potenzielle Systeme, in denen jede mögliche Beziehung latent bleibt, bis Aufgaben Einschränkungen auferlegen, ähnlich wie bei Messungen. Die Verfeinerung ihrer Stichproben erfordert jedoch mehr als probabilistische Auswahl: Lösungen müssen spezifischen Strukturen oder Regeln entsprechen, um Konsistenz und die Anrufung allgemeiner Prinzipien sicherzustellen. Wir stellen Graph-PReFLexOR (Graphenbasierte Präferenzbasierte Rekursive Sprachmodellierung zur explorativen Optimierung des Schlussfolgerns) vor, ein Framework, das Graphenschlussfolgerung mit symbolischer Abstraktion kombiniert, um das Domänenwissen dynamisch zu erweitern. Inspiriert von reinforcement learning definiert Graph-PReFLexOR das Schlussfolgern als strukturiertes Mapping, bei dem Aufgaben Wissensgraphen, abstrakte Muster und letztendlich endgültige Antworten liefern. Inspiriert von der Kategorientheorie codiert es Konzepte als Knoten und ihre Beziehungen als Kanten, unterstützt hierarchisches Schließen und adaptives Lernen durch isomorphe Darstellungen. Demonstrationen umfassen Hypothesengenerierung, Materialdesign und kreatives Schlussfolgern, wie das Entdecken von Beziehungen zwischen mythologischen Konzepten wie 'dünnen Orten' mit Materialwissenschaft. Wir schlagen eine Strategie des 'Wissensgartenwachstums' vor, die Erkenntnisse über Domänen hinweg integriert und interdisziplinäre Verbindungen fördert. Ergebnisse mit einem 3-Milliarden-Parameter-Graph-PReFLexOR-Modell zeigen überlegene Schlusstiefe und Anpassungsfähigkeit und unterstreichen das Potenzial für transparente, multidisziplinäre KI-gesteuerte Entdeckungen. Es legt den Grundstein für allgemeine autonome Schlussfolgerungslösungen.

Potenzial und Gefahren großer Sprachmodelle als Richter unstrukturierter Textdaten
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Jan 14

ByRewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar

Rasante Fortschritte bei großen Sprachmodellen haben bemerkenswerte Fähigkeiten freigesetzt, wenn es um die Verarbeitung und Zusammenfassung unstrukturierter Textdaten geht. Dies hat Auswirkungen auf die Analyse von umfangreichen, offenen Datensätzen, wie beispielsweise Umfrageantworten, bei denen Sprachmodelle große Versprechen machen, Schlüsselthemen und Stimmungen effizient zu destillieren. Allerdings, während Organisationen zunehmend auf diese leistungsstarken KI-Systeme zurückgreifen, um den Textfeedbacks Sinn zu verleihen, stellt sich eine kritische Frage: Können wir darauf vertrauen, dass Sprachmodelle die in diesen textbasierten Datensätzen enthaltenen Perspektiven genau repräsentieren? Obwohl Sprachmodelle in der Lage sind, menschenähnliche Zusammenfassungen zu generieren, besteht das Risiko, dass ihre Ausgaben unbeabsichtigt vom eigentlichen Inhalt der Originalantworten abweichen könnten. Diskrepanzen zwischen den von Sprachmodellen generierten Ausgaben und den tatsächlichen Themen in den Daten könnten zu fehlerhaften Entscheidungen führen, mit weitreichenden Konsequenzen für Organisationen. Diese Forschung untersucht die Wirksamkeit von Sprachmodellen als Richtermodelle zur Bewertung der thematischen Übereinstimmung von Zusammenfassungen, die von anderen Sprachmodellen generiert wurden. Wir haben ein Anthropisches Claude-Modell verwendet, um thematische Zusammenfassungen von offenen Umfrageantworten zu generieren, wobei Amazon's Titan Express, Nova Pro und Meta's Llama als Sprachmodell-Richter fungierten. Der Ansatz des Sprachmodells als Richter wurde mit menschlichen Bewertungen unter Verwendung von Cohens Kappa, Spearmans Rho und Krippendorffs Alpha verglichen, was eine skalierbare Alternative zu traditionellen, auf Menschen zentrierten Bewertungsmethoden validiert. Unsere Ergebnisse zeigen, dass Sprachmodelle als Richter eine skalierbare Lösung bieten, die mit menschlichen Bewertenden vergleichbar ist, wobei Menschen möglicherweise immer noch darin übertreffen, subtile, kontextspezifische Nuancen zu erkennen. Diese Forschung trägt zum wachsenden Wissenskorpus über KI-unterstützte Textanalyse bei. Wir diskutieren Einschränkungen und geben Empfehlungen für zukünftige Forschung, wobei wir die Notwendigkeit betonen, sorgfältig zu überlegen, wenn Sprachmodell-Richtermodelle über verschiedene Kontexte und Anwendungsfälle verallgemeinert werden.