papers.description
Große Sprachmodelle haben erhebliche Fortschritte in den Fähigkeiten des Schlussfolgerns gezeigt, insbesondere durch das Skalieren zur Inferenzzeit, wie es von Modellen wie OpenAI's o1 veranschaulicht wird. Allerdings haben aktuelle Vision-Sprachmodelle (VLMs) oft Schwierigkeiten, systematisches und strukturiertes Schlussfolgern durchzuführen, insbesondere bei der Bewältigung komplexer visueller Frage-Antwort-Aufgaben. In dieser Arbeit stellen wir LLaVA-o1 vor, ein neuartiges VLM, das für autonomes mehrstufiges Schlussfolgern konzipiert ist. Im Gegensatz zur Ketten-Denkanregung beschäftigt sich LLaVA-o1 eigenständig mit aufeinanderfolgenden Stufen der Zusammenfassung, visuellen Interpretation, logischen Schlussfolgerung und Schlussfolgerungsgenerierung. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, deutliche Verbesserungen in der Präzision bei schlussfolgerungsintensiven Aufgaben zu erzielen. Um dies zu erreichen, erstellen wir den LLaVA-o1-100k Datensatz, der Proben aus verschiedenen visuellen Frage-Antwort-Quellen integriert und strukturierte Schlussfolgerungsannotationen bereitstellt. Darüber hinaus schlagen wir eine Inferenzzeit-Stufen-Level-Beam-Suche-Methode vor, die eine effektive Skalierung zur Inferenzzeit ermöglicht. Bemerkenswert ist, dass LLaVA-o1 mit nur 100k Trainingsproben und einer einfachen, aber effektiven Methode zur Skalierung zur Inferenzzeit nicht nur sein Basismodell auf einer Vielzahl von multimodalen Schlussfolgerungs-Benchmarks um 8,9% übertrifft, sondern auch die Leistung größerer und sogar geschlossener Modelle wie Gemini-1.5-pro, GPT-4o-mini und Llama-3.2-90B-Vision-Instruct übertrifft.
In diesem Paper präsentieren wir RAG, eine Regional-Aware Text-zu-Bild Generierungsmethode, die auf regionalen Beschreibungen für präzise Layoutkomposition basiert. Regionales Anstoßen oder kompositionale Generierung, das feinkörnige räumliche Steuerung ermöglicht, hat aufgrund seiner Praktikabilität in realen Anwendungen zunehmend an Bedeutung gewonnen. Bisherige Methoden führten jedoch entweder zusätzliche trainierbare Module ein, die nur auf spezifische Modelle anwendbar sind, oder manipulierten Score-Maps innerhalb von Cross-Attention-Schichten mithilfe von Aufmerksamkeitsmasken, was zu begrenzter Steuerungsstärke bei zunehmender Anzahl von Regionen führte. Um diese Einschränkungen zu bewältigen, zerlegen wir die Multi-Region-Generierung in zwei Teilaufgaben, die Konstruktion einzelner Regionen (Regional Hard Binding), die sicherstellt, dass der regionale Anstoß ordnungsgemäß ausgeführt wird, und die Gesamtdetailverfeinerung (Regional Soft Refinement) über Regionen, die die visuellen Grenzen aufheben und benachbarte Interaktionen verbessern. Darüber hinaus ermöglicht RAG neuartiges Repainting, bei dem Benutzer spezifische unzufriedene Regionen in der letzten Generierung ändern können, während alle anderen Regionen unverändert bleiben, ohne auf zusätzliche Inpainting-Modelle angewiesen zu sein. Unser Ansatz ist abstimmungsfrei und als Verbesserung der dem Anstoß folgenden Eigenschaft auf andere Frameworks anwendbar. Quantitative und qualitative Experimente zeigen, dass RAG eine überlegene Leistung bei Attributbindung und Objektbeziehung im Vergleich zu früheren abstimmungsfreien Methoden erzielt.
Das kürzlich veröffentlichte Modell Claude 3.5 Computer Use hebt sich als das erste KI-Modell der Spitzenklasse hervor, das Computerbenutzung in der öffentlichen Beta als grafische Benutzeroberfläche (GUI)-Agent anbietet. Als frühe Beta ist seine Leistungsfähigkeit in der realen komplexen Umgebung unbekannt. In dieser Fallstudie zur Erkundung von Claude 3.5 Computer Use kuratieren und organisieren wir eine Sammlung sorgfältig gestalteter Aufgaben, die verschiedene Bereiche und Software abdecken. Beobachtungen aus diesen Fällen zeigen die beispiellose Fähigkeit von Claude 3.5 Computer Use in der Sprache-zu-Desktop-Handlungen. Neben dieser Studie stellen wir ein Agenten-Framework "out-of-the-box" zur Verfügung, um API-basierte GUI-Automatisierungsmodelle mit einfacher Implementierung bereitzustellen. Unsere Fallstudien sollen ein Fundament von Fähigkeiten und Einschränkungen von Claude 3.5 Computer Use mit detaillierten Analysen präsentieren und Fragen zu Planung, Handlung und Kritik aufwerfen, die für zukünftige Verbesserungen berücksichtigt werden müssen. Wir hoffen, dass diese vorläufige Erkundung zukünftige Forschungen in der GUI-Agenten-Community inspirieren wird. Alle Testfälle in dem Papier können über das Projekt ausprobiert werden: https://github.com/showlab/computer_use_ootb.
Obwohl die Erzeugung von 3D-Inhalten erhebliche Fortschritte gemacht hat, stehen bestehende Methoden immer noch vor Herausforderungen bei Eingabeformaten, dem latenten Raumdesign und Ausgaberepräsentationen. Dieses Paper stellt ein neuartiges 3D-Generierungs-Framework vor, das diese Herausforderungen angeht und skalierbare, hochwertige 3D-Generierung mit einem interaktiven Punktewolken-strukturierten Latenten Raum bietet. Unser Framework verwendet einen Variationalen Autoencoder (VAE) mit mehreren Ansichten von RGB-D(epth)-N(ormal)-Renderings als Eingabe und nutzt ein einzigartiges latenten Raumdesign, das 3D-Forminformationen bewahrt, und integriert ein kaskadiertes latentes Diffusionsmodell zur verbesserten Form-Textur-Entflechtung. Die vorgeschlagene Methode, GaussianAnything, unterstützt multimodale bedingte 3D-Generierung, was Punktewolke, Bildunterschrift und Einzel-/Mehr-Ansicht-Bildeingaben ermöglicht. Bemerkenswert ermöglicht der neu vorgeschlagene latente Raum eine natürliche Geometrie-Textur-Entflechtung und erlaubt somit 3D-bewusstes Bearbeiten. Experimentelle Ergebnisse zeigen die Wirksamkeit unseres Ansatzes auf mehreren Datensätzen und übertreffen bestehende Methoden sowohl in text- als auch bildbedingter 3D-Generierung.
Video Large Language Models (Vid-LLMs) haben bemerkenswerte Fortschritte bei der Erfassung von Videoinhalten für QA-Dialoge erzielt. Allerdings haben sie Schwierigkeiten, dieses visuelle Verständnis auf Aufgaben auszudehnen, die eine präzise zeitliche Lokalisierung erfordern, bekannt als Video Temporal Grounding (VTG). Um diese Lücke zu schließen, stellen wir Number-Prompt (NumPro) vor, eine neuartige Methode, die Vid-LLMs befähigt, visuelles Verständnis mit zeitlicher Verankerung zu verbinden, indem sie eindeutige numerische Identifikatoren zu jedem Videobild hinzufügt. Indem ein Video als Sequenz nummerierter Bildrahmen behandelt wird, verwandelt NumPro VTG in einen intuitiven Prozess: Durchblättern von Manga-Paneln in Sequenz. Dies ermöglicht es Vid-LLMs, Ereigniszeitpläne "zu lesen", indem sie visuelle Inhalte genau mit entsprechenden zeitlichen Informationen verknüpfen. Unsere Experimente zeigen, dass NumPro die VTG-Leistung von Spitzentechnologien der Vid-LLMs signifikant steigert, ohne zusätzliche Rechenkosten zu verursachen. Darüber hinaus definiert das Feintuning an einem durch NumPro verbesserten Datensatz einen neuen Stand der Technik für VTG, der frühere Spitzenmethoden um bis zu 6,9\% bei der Momentabfrage und 8,5\% bei der Highlight-Erkennung übertrifft. Der Code wird unter https://github.com/yongliang-wu/NumPro verfügbar sein.
Wir stellen Xmodel-1.5 vor, ein neuartiges mehrsprachiges großes Modell mit einer Milliarde Parametern, das auf etwa 2 Billionen Tokens vortrainiert wurde. Das Modell zeigt starke Leistungen in mehreren Sprachen, insbesondere in Thai, Arabisch und Französisch, neben seiner Wirksamkeit in Chinesisch und Englisch. Darüber hinaus tragen wir zur Forschungsgemeinschaft bei, indem wir einen Thai-Evaluierungsdatensatz veröffentlichen, der Hunderte von Fragen enthält, die von Studierenden der School of Integrated Innovation der Chulalongkorn University annotiert wurden. Obwohl die Ergebnisse vielversprechend sind, erkennen wir an, dass es noch Verbesserungspotenzial gibt. Wir hoffen, dass diese Arbeit die laufenden Bemühungen in der mehrsprachigen KI-Forschung vorantreibt und ein besseres interlinguales Verständnis in verschiedenen natürlichsprachlichen Verarbeitungsaufgaben fördert. Unsere Modelle und der Code sind öffentlich auf GitHub unter https://github.com/XiaoduoAILab/XmodelLM verfügbar.
Das Training von tiefen neuronalen Netzwerken - und in jüngster Zeit auch großer Modelle - erfordert effiziente und skalierbare Optimierer. Adaptive Gradienten-Algorithmen wie Adam, AdamW und deren Varianten waren dabei entscheidend. Trotz der Entwicklung zahlreicher Algorithmen zur Varianzreduktion im vergangenen Jahrzehnt, die darauf abzielten, stochastische Optimierung in konvexen und nicht-konvexen Umgebungen zu beschleunigen, hat die Varianzreduktion im Training von tiefen neuronalen Netzwerken oder großen Sprachmodellen keine weitreichenden Erfolge erzielt. Folglich ist sie ein weniger bevorzugter Ansatz in der modernen KI geblieben. In diesem Paper schlagen wir vor, die Kraft der Varianzreduktion für das effiziente Training großer Modelle freizusetzen, indem wir ein vereinheitlichtes Optimierungsframework namens MARS (Make vAriance Reduction Shine) vorstellen, das vorkonditionierte Gradientenmethoden mit Varianzreduktion über eine skalierte stochastische rekursive Momentum-Technik in Einklang bringt. Innerhalb unseres Frameworks stellen wir drei Instanzen von MARS vor, die auf vorkonditionierten Gradientenupdates basieren, die auf AdamW, Lion und Shampoo basieren. Wir ziehen auch eine Verbindung zwischen unseren Algorithmen und bestehenden Optimierern. Experimentelle Ergebnisse zum Training von GPT-2-Modellen zeigen, dass MARS AdamW deutlich übertrifft.