papers.title

papers.description

LLaVA-o1: Lassen Sie Vision-Sprachmodelle Schritt für Schritt Schlussfolgerungen ziehen
LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Nov 15

ByGuowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan

105

Große Sprachmodelle haben erhebliche Fortschritte in den Fähigkeiten des Schlussfolgerns gezeigt, insbesondere durch das Skalieren zur Inferenzzeit, wie es von Modellen wie OpenAI's o1 veranschaulicht wird. Allerdings haben aktuelle Vision-Sprachmodelle (VLMs) oft Schwierigkeiten, systematisches und strukturiertes Schlussfolgern durchzuführen, insbesondere bei der Bewältigung komplexer visueller Frage-Antwort-Aufgaben. In dieser Arbeit stellen wir LLaVA-o1 vor, ein neuartiges VLM, das für autonomes mehrstufiges Schlussfolgern konzipiert ist. Im Gegensatz zur Ketten-Denkanregung beschäftigt sich LLaVA-o1 eigenständig mit aufeinanderfolgenden Stufen der Zusammenfassung, visuellen Interpretation, logischen Schlussfolgerung und Schlussfolgerungsgenerierung. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, deutliche Verbesserungen in der Präzision bei schlussfolgerungsintensiven Aufgaben zu erzielen. Um dies zu erreichen, erstellen wir den LLaVA-o1-100k Datensatz, der Proben aus verschiedenen visuellen Frage-Antwort-Quellen integriert und strukturierte Schlussfolgerungsannotationen bereitstellt. Darüber hinaus schlagen wir eine Inferenzzeit-Stufen-Level-Beam-Suche-Methode vor, die eine effektive Skalierung zur Inferenzzeit ermöglicht. Bemerkenswert ist, dass LLaVA-o1 mit nur 100k Trainingsproben und einer einfachen, aber effektiven Methode zur Skalierung zur Inferenzzeit nicht nur sein Basismodell auf einer Vielzahl von multimodalen Schlussfolgerungs-Benchmarks um 8,9% übertrifft, sondern auch die Leistung größerer und sogar geschlossener Modelle wie Gemini-1.5-pro, GPT-4o-mini und Llama-3.2-90B-Vision-Instruct übertrifft.

Text-zu-Bild-Generierung mit Regionsbewusstsein durch harte Bindung und weiche Verfeinerung
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai

In diesem Paper präsentieren wir RAG, eine Regional-Aware Text-zu-Bild Generierungsmethode, die auf regionalen Beschreibungen für präzise Layoutkomposition basiert. Regionales Anstoßen oder kompositionale Generierung, das feinkörnige räumliche Steuerung ermöglicht, hat aufgrund seiner Praktikabilität in realen Anwendungen zunehmend an Bedeutung gewonnen. Bisherige Methoden führten jedoch entweder zusätzliche trainierbare Module ein, die nur auf spezifische Modelle anwendbar sind, oder manipulierten Score-Maps innerhalb von Cross-Attention-Schichten mithilfe von Aufmerksamkeitsmasken, was zu begrenzter Steuerungsstärke bei zunehmender Anzahl von Regionen führte. Um diese Einschränkungen zu bewältigen, zerlegen wir die Multi-Region-Generierung in zwei Teilaufgaben, die Konstruktion einzelner Regionen (Regional Hard Binding), die sicherstellt, dass der regionale Anstoß ordnungsgemäß ausgeführt wird, und die Gesamtdetailverfeinerung (Regional Soft Refinement) über Regionen, die die visuellen Grenzen aufheben und benachbarte Interaktionen verbessern. Darüber hinaus ermöglicht RAG neuartiges Repainting, bei dem Benutzer spezifische unzufriedene Regionen in der letzten Generierung ändern können, während alle anderen Regionen unverändert bleiben, ohne auf zusätzliche Inpainting-Modelle angewiesen zu sein. Unser Ansatz ist abstimmungsfrei und als Verbesserung der dem Anstoß folgenden Eigenschaft auf andere Frameworks anwendbar. Quantitative und qualitative Experimente zeigen, dass RAG eine überlegene Leistung bei Attributbindung und Objektbeziehung im Vergleich zu früheren abstimmungsfreien Methoden erzielt.

Der Beginn des GUI-Agenten: Eine Vorläufige Fallstudie mit dem Computer Claude 3.5
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

Nov 15

BySiyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou

Das kürzlich veröffentlichte Modell Claude 3.5 Computer Use hebt sich als das erste KI-Modell der Spitzenklasse hervor, das Computerbenutzung in der öffentlichen Beta als grafische Benutzeroberfläche (GUI)-Agent anbietet. Als frühe Beta ist seine Leistungsfähigkeit in der realen komplexen Umgebung unbekannt. In dieser Fallstudie zur Erkundung von Claude 3.5 Computer Use kuratieren und organisieren wir eine Sammlung sorgfältig gestalteter Aufgaben, die verschiedene Bereiche und Software abdecken. Beobachtungen aus diesen Fällen zeigen die beispiellose Fähigkeit von Claude 3.5 Computer Use in der Sprache-zu-Desktop-Handlungen. Neben dieser Studie stellen wir ein Agenten-Framework "out-of-the-box" zur Verfügung, um API-basierte GUI-Automatisierungsmodelle mit einfacher Implementierung bereitzustellen. Unsere Fallstudien sollen ein Fundament von Fähigkeiten und Einschränkungen von Claude 3.5 Computer Use mit detaillierten Analysen präsentieren und Fragen zu Planung, Handlung und Kritik aufwerfen, die für zukünftige Verbesserungen berücksichtigt werden müssen. Wir hoffen, dass diese vorläufige Erkundung zukünftige Forschungen in der GUI-Agenten-Community inspirieren wird. Alle Testfälle in dem Papier können über das Projekt ausprobiert werden: https://github.com/showlab/computer_use_ootb.

GaussianAnything: Interaktive Punktewolken-Latenzdiffusion für die 3D-Generierung
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Nov 12

ByYushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

Obwohl die Erzeugung von 3D-Inhalten erhebliche Fortschritte gemacht hat, stehen bestehende Methoden immer noch vor Herausforderungen bei Eingabeformaten, dem latenten Raumdesign und Ausgaberepräsentationen. Dieses Paper stellt ein neuartiges 3D-Generierungs-Framework vor, das diese Herausforderungen angeht und skalierbare, hochwertige 3D-Generierung mit einem interaktiven Punktewolken-strukturierten Latenten Raum bietet. Unser Framework verwendet einen Variationalen Autoencoder (VAE) mit mehreren Ansichten von RGB-D(epth)-N(ormal)-Renderings als Eingabe und nutzt ein einzigartiges latenten Raumdesign, das 3D-Forminformationen bewahrt, und integriert ein kaskadiertes latentes Diffusionsmodell zur verbesserten Form-Textur-Entflechtung. Die vorgeschlagene Methode, GaussianAnything, unterstützt multimodale bedingte 3D-Generierung, was Punktewolke, Bildunterschrift und Einzel-/Mehr-Ansicht-Bildeingaben ermöglicht. Bemerkenswert ermöglicht der neu vorgeschlagene latente Raum eine natürliche Geometrie-Textur-Entflechtung und erlaubt somit 3D-bewusstes Bearbeiten. Experimentelle Ergebnisse zeigen die Wirksamkeit unseres Ansatzes auf mehreren Datensätzen und übertreffen bestehende Methoden sowohl in text- als auch bildbedingter 3D-Generierung.

Xmodell-1.5: Ein mehrsprachiges LLM im Maßstab von 1B
Xmodel-1.5: An 1B-scale Multilingual LLM

Nov 15

ByWang Qun, Liu Yang, Lin Qingquan, Jiang Ling

Wir stellen Xmodel-1.5 vor, ein neuartiges mehrsprachiges großes Modell mit einer Milliarde Parametern, das auf etwa 2 Billionen Tokens vortrainiert wurde. Das Modell zeigt starke Leistungen in mehreren Sprachen, insbesondere in Thai, Arabisch und Französisch, neben seiner Wirksamkeit in Chinesisch und Englisch. Darüber hinaus tragen wir zur Forschungsgemeinschaft bei, indem wir einen Thai-Evaluierungsdatensatz veröffentlichen, der Hunderte von Fragen enthält, die von Studierenden der School of Integrated Innovation der Chulalongkorn University annotiert wurden. Obwohl die Ergebnisse vielversprechend sind, erkennen wir an, dass es noch Verbesserungspotenzial gibt. Wir hoffen, dass diese Arbeit die laufenden Bemühungen in der mehrsprachigen KI-Forschung vorantreibt und ein besseres interlinguales Verständnis in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben fördert. Unsere Modelle und der Code sind öffentlich auf GitHub unter https://github.com/XiaoduoAILab/XmodelLM verfügbar.

Nummeriere es: Zeitliche Verankerung von Videos wie das Umblättern von Manga.
Number it: Temporal Grounding Videos like Flipping Manga

Nov 15

ByYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

Video Large Language Models (Vid-LLMs) haben bemerkenswerte Fortschritte bei der Erfassung von Videoinhalten für QA-Dialoge erzielt. Allerdings haben sie Schwierigkeiten, dieses visuelle Verständnis auf Aufgaben auszudehnen, die eine präzise zeitliche Lokalisierung erfordern, bekannt als Video Temporal Grounding (VTG). Um diese Lücke zu schließen, stellen wir Number-Prompt (NumPro) vor, eine neuartige Methode, die Vid-LLMs befähigt, visuelles Verständnis mit zeitlicher Verankerung zu verbinden, indem sie eindeutige numerische Identifikatoren zu jedem Videobild hinzufügt. Indem ein Video als Sequenz nummerierter Bildrahmen behandelt wird, verwandelt NumPro VTG in einen intuitiven Prozess: Durchblättern von Manga-Paneln in Sequenz. Dies ermöglicht es Vid-LLMs, Ereigniszeitpläne "zu lesen", indem sie visuelle Inhalte genau mit entsprechenden zeitlichen Informationen verknüpfen. Unsere Experimente zeigen, dass NumPro die VTG-Leistung von Spitzentechnologien der Vid-LLMs signifikant steigert, ohne zusätzliche Rechenkosten zu verursachen. Darüber hinaus definiert das Feintuning an einem durch NumPro verbesserten Datensatz einen neuen Stand der Technik für VTG, der frühere Spitzenmethoden um bis zu 6,9\% bei der Momentabfrage und 8,5\% bei der Highlight-Erkennung übertrifft. Der Code wird unter https://github.com/yongliang-wu/NumPro verfügbar sein.

MARS: Die Kraft der Varianzreduktion für das Training großer Modelle entfesseln
MARS: Unleashing the Power of Variance Reduction for Training Large Models

Nov 15

ByHuizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou, Quanquan Gu

Das Training von tiefen neuronalen Netzwerken - und in jüngster Zeit auch großer Modelle - erfordert effiziente und skalierbare Optimierer. Adaptive Gradienten-Algorithmen wie Adam, AdamW und deren Varianten waren dabei entscheidend. Trotz der Entwicklung zahlreicher Algorithmen zur Varianzreduktion im vergangenen Jahrzehnt, die darauf abzielten, stochastische Optimierung in konvexen und nicht-konvexen Umgebungen zu beschleunigen, hat die Varianzreduktion im Training von tiefen neuronalen Netzwerken oder großen Sprachmodellen keine weitreichenden Erfolge erzielt. Folglich ist sie ein weniger bevorzugter Ansatz in der modernen KI geblieben. In diesem Paper schlagen wir vor, die Kraft der Varianzreduktion für das effiziente Training großer Modelle freizusetzen, indem wir ein vereinheitlichtes Optimierungsframework namens MARS (Make vAriance Reduction Shine) vorstellen, das vorkonditionierte Gradientenmethoden mit Varianzreduktion über eine skalierte stochastische rekursive Momentum-Technik in Einklang bringt. Innerhalb unseres Frameworks stellen wir drei Instanzen von MARS vor, die auf vorkonditionierten Gradientenupdates basieren, die auf AdamW, Lion und Shampoo basieren. Wir ziehen auch eine Verbindung zwischen unseren Algorithmen und bestehenden Optimierern. Experimentelle Ergebnisse zum Training von GPT-2-Modellen zeigen, dass MARS AdamW deutlich übertrifft.