Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Chameleon, eine Familie von früh-fusionierten tokenbasierten Mixed-Modal-Modellen, die in der Lage sind, Bilder und Text in beliebiger Sequenz zu verstehen und zu generieren. Wir skizzieren einen stabilen Schulungsansatz von Anfang an, ein Ausrichtungsrezept und eine architektonische Parametrisierung, die speziell für die früh-fusionierte, tokenbasierte, Mixed-Modal-Umgebung entwickelt wurde. Die Modelle werden auf einer umfassenden Palette von Aufgaben evaluiert, einschließlich visueller Fragestellungen, Bildunterschriften, Textgenerierung, Bildgenerierung und Mixed-Modal-Generierung in Langform. Chameleon zeigt breite und allgemeine Fähigkeiten, einschließlich einer Leistung auf dem neuesten Stand der Technik bei Bildunterschriftsaufgaben, übertrifft Llama-2 in reinen Textaufgaben, während es mit Modellen wie Mixtral 8x7B und Gemini-Pro konkurriert, und führt nicht-triviale Bildgenerierung durch, alles in einem einzigen Modell. Es entspricht auch oder übertrifft die Leistung von viel größeren Modellen, einschließlich Gemini Pro und GPT-4V, gemäß menschlicher Bewertungen in einer neuen Bewertung der Langform-Mixed-Modal-Generierung, bei der entweder die Eingabeaufforderung oder die Ausgaben gemischte Sequenzen von Bildern und Text enthalten. Chameleon markiert einen bedeutenden Fortschritt in der vereinheitlichten Modellierung vollständig multimodaler Dokumente.
Low-Rank Adaptation (LoRA) ist eine weit verbreitete, parameter-effiziente Feinabstimmungsmethode für große Sprachmodelle. LoRA spart Speicherplatz, indem es nur niederdimensionale Störungen an ausgewählten Gewichtsmatrizen trainiert. In dieser Arbeit vergleichen wir die Leistung von LoRA und vollständiger Feinabstimmung in zwei Zielbereichen, Programmierung und Mathematik. Wir betrachten sowohl die Anweisungsfeinabstimmung (ca. 100.000 Eingabe-Antwort-Paare) als auch das fortgesetzte Vortraining (ca. 10 Milliarden unstrukturierte Tokens). Unsere Ergebnisse zeigen, dass LoRA in den meisten Einstellungen deutlich schlechter abschneidet als die vollständige Feinabstimmung. Dennoch zeigt LoRA eine wünschenswerte Form der Regularisierung: Es erhält die Leistung des Basismodells besser bei Aufgaben außerhalb des Zielbereichs. Wir zeigen, dass LoRA im Vergleich zu gängigen Techniken wie Gewichtsabnahme und Dropout eine stärkere Regularisierung bietet; es hilft auch dabei, vielfältigere Generationen aufrechtzuerhalten. Wir zeigen, dass die vollständige Feinabstimmung Störungen mit einer Rangfolge lernt, die 10-100-mal größer ist als typische LoRA-Konfigurationen, was möglicherweise einige der berichteten Unterschiede erklärt. Abschließend schlagen wir bewährte Verfahren für die Feinabstimmung mit LoRA vor.
Fortschritte in der 3D-Rekonstruktion haben hochwertige 3D-Erfassung ermöglicht, erfordern jedoch, dass ein Benutzer Hunderte bis Tausende von Bildern sammelt, um eine 3D-Szene zu erstellen. Wir stellen CAT3D vor, eine Methode zur Erstellung beliebiger Objekte in 3D durch die Simulation dieses Prozesses der Echtwelterfassung mit einem Mehransichts-Diffusionsmodell. Unter Verwendung einer beliebigen Anzahl von Eingabebildern und einer Reihe von Zielneuansichten generiert unser Modell äußerst konsistente neue Ansichten einer Szene. Diese generierten Ansichten können als Eingabe für robuste 3D-Rekonstruktionstechniken verwendet werden, um 3D-Repräsentationen zu erzeugen, die in Echtzeit aus jeder Perspektive gerendert werden können. CAT3D kann ganze 3D-Szenen in so wenig wie einer Minute erstellen und übertrifft bestehende Methoden für die Erstellung von 3D-Szenen aus einem einzelnen Bild oder wenigen Ansichten. Besuchen Sie unsere Projektseite für Ergebnisse und interaktive Demos unter https://cat3d.github.io.
Große Sprachmodelle sind bekannt dafür, effektiv beim Lernen mit wenigen Beispielen im Kontext (ICL) zu sein. Die jüngsten Fortschritte bei multimodalen Grundlagenmodellen haben unerwartet lange Kontextfenster ermöglicht, was die Möglichkeit eröffnet, ihre Fähigkeit zu untersuchen, ICL mit deutlich mehr demonstrierenden Beispielen durchzuführen. In dieser Arbeit bewerten wir die Leistung von multimodalen Grundlagenmodellen, die von wenigen Beispielen bis hin zu vielen Beispielen im ICL skalieren. Wir vergleichen GPT-4o und Gemini 1.5 Pro anhand von 10 Datensätzen, die verschiedene Bereiche abdecken (natürliche Bildgebung, medizinische Bildgebung, Fernerkundung und molekulare Bildgebung) sowie Aufgaben (Mehrklassen-, Mehrfachlabel- und feinkörnige Klassifizierung). Wir stellen fest, dass viele Beispiele im ICL, einschließlich fast 2.000 multimodaler demonstrierender Beispiele, im Vergleich zu wenigen (<100 Beispielen) ICL auf allen Datensätzen zu erheblichen Verbesserungen führen. Darüber hinaus verbessert sich die Leistung von Gemini 1.5 Pro auf vielen Datensätzen log-linear bis zur maximal getesteten Anzahl von Beispielen. Angesichts der hohen Inferenzkosten, die mit den langen Eingabeaufforderungen für das viele Beispiele umfassende ICL verbunden sind, untersuchen wir auch die Auswirkungen des Stapelns mehrerer Abfragen in einem einzelnen API-Aufruf. Wir zeigen, dass das Stapeln von bis zu 50 Abfragen zu Leistungsverbesserungen bei Null- und vielen Beispielen im ICL führen kann, mit erheblichen Gewinnen im Null-Modus auf mehreren Datensätzen, während die Kosten pro Abfrage und die Latenz drastisch reduziert werden. Schließlich messen wir die Dateneffizienz des ICL der Modelle, also die Rate, mit der die Modelle aus mehr demonstrierenden Beispielen lernen. Wir stellen fest, dass, während GPT-4o und Gemini 1.5 Pro eine ähnliche Null-Modus-Leistung auf den Datensätzen erzielen, Gemini 1.5 Pro auf den meisten Datensätzen eine höhere Dateneffizienz im ICL aufweist als GPT-4o. Unsere Ergebnisse legen nahe, dass viele Beispiele im ICL Benutzern ermöglichen könnten, multimodale Grundlagenmodelle effizient an neue Anwendungen und Bereiche anzupassen. Unser Code ist öffentlich verfügbar unter https://github.com/stanfordmlgroup/ManyICL.
Dieses Papier stellt Grounding DINO 1.5 vor, eine Reihe fortschrittlicher Open-Set-Objekterkennungsmodelle, die von IDEA Research entwickelt wurden und darauf abzielen, den "Edge" der Open-Set-Objekterkennung voranzutreiben. Die Suite umfasst zwei Modelle: Grounding DINO 1.5 Pro, ein leistungsstarkes Modell, das für eine stärkere Verallgemeinerungsfähigkeit über eine Vielzahl von Szenarien hinweg entwickelt wurde, und Grounding DINO 1.5 Edge, ein effizientes Modell, das für die schnellere Geschwindigkeit optimiert ist, die in vielen Anwendungen mit Edge-Bereitstellung gefordert wird. Das Grounding DINO 1.5 Pro-Modell verbessert seinen Vorgänger, indem es die Modellarchitektur vergrößert, eine verbesserte Vision-Backbone integriert und den Trainingsdatensatz auf über 20 Millionen Bilder mit Grounding-Annotationen erweitert, um so ein tieferes semantisches Verständnis zu erreichen. Das Grounding DINO 1.5 Edge-Modell, das auf Effizienz ausgelegt ist und über reduzierte Merkmalsmaße verfügt, behält robuste Erkennungsfähigkeiten bei, indem es auf demselben umfassenden Datensatz trainiert wird. Empirische Ergebnisse zeigen die Wirksamkeit von Grounding DINO 1.5, wobei das Grounding DINO 1.5 Pro-Modell einen AP von 54,3 auf dem COCO-Detektionsbenchmark und einen AP von 55,7 auf dem LVIS-minival Zero-Shot-Transfer-Benchmark erreicht und damit neue Rekorde für die Open-Set-Objekterkennung setzt. Darüber hinaus erreicht das Grounding DINO 1.5 Edge-Modell, wenn es mit TensorRT optimiert wird, eine Geschwindigkeit von 75,2 FPS und erzielt einen Zero-Shot-Performance von 36,2 AP auf dem LVIS-minival-Benchmark, was es für Edge-Computing-Szenarien besser geeignet macht. Modellbeispiele und Demos mit API werden unter https://github.com/IDEA-Research/Grounding-DINO-1.5-API veröffentlicht.
In dieser Arbeit stellen wir die zugrunde liegende 3D-Struktur von nicht geometrisch konsistenten Szenen wieder her. Wir konzentrieren uns auf handgezeichnete Bilder aus Cartoons und Anime. Viele Cartoons werden von Künstlern ohne 3D-Rendering-Engine erstellt, was bedeutet, dass jedes neue Bild einer Szene von Hand gezeichnet wird. Die handgezeichneten Bilder sind in der Regel treue Darstellungen der Welt, aber nur in einem qualitativen Sinne, da es für Menschen schwierig ist, mehrere Perspektiven eines Objekts oder einer Szene 3D-konsistent zu zeichnen. Dennoch können Menschen 3D-Szenen leicht aus inkonsistenten Eingaben wahrnehmen! In dieser Arbeit korrigieren wir 2D-Zeicheninkonsistenzen, um eine plausible 3D-Struktur wiederherzustellen, sodass die neu verformten Zeichnungen miteinander konsistent sind. Unser Prozess umfasst ein benutzerfreundliches Annotierungstool, die Schätzung der Kameraposition und die Bildverformung zur Wiederherstellung einer dichten Struktur. Unsere Methode verformt Bilder gemäß einem perspektivischen Kameramodell, sodass unsere ausgerichteten Ergebnisse in neuartige Synthese-Rekonstruktionsmethoden eingebunden werden können, um Cartoons aus noch nie zuvor gezeichneten Blickwinkeln zu erleben. Unsere Projektseite ist https://toon3d.studio/.
Wir präsentieren Dual3D, ein neuartiges Text-zu-3D-Generierungsframework, das hochwertige 3D-Objekte aus Texten in nur 1 Minute erzeugt. Die Schlüsselkomponente ist ein Dual-Modus Multi-View Latent Diffusion Model. Unter Verwendung der rauschigen Multi-View Latents kann der 2D-Modus diese effizient mit einem einzigen Latent-Denoising-Netzwerk bereinigen, während der 3D-Modus eine Tri-Ebenen-Neuralfläche für konsistentes Rendering-basiertes Denoising erzeugen kann. Die meisten Module für beide Modi sind von einem vortrainierten Text-zu-Bild-Latent Diffusion Model optimiert, um die teure Kosten des Trainings von Grund auf zu umgehen. Um die hohe Rendering-Kosten während der Inferenz zu überwinden, schlagen wir die Dual-Modus Umschalt-Inferenzstrategie vor, um nur 1/10 Denoising-Schritte mit dem 3D-Modus zu verwenden, was erfolgreich ein 3D-Objekt in nur 10 Sekunden erzeugt, ohne die Qualität zu beeinträchtigen. Die Textur des 3D-Objekts kann durch unseren effizienten Texturverfeinerungsprozess in kurzer Zeit weiter verbessert werden. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung bietet und gleichzeitig die Generierungszeit signifikant reduziert. Unsere Projektseite ist unter https://dual3d.github.io verfügbar.
Das Lernen in der Simulation und die Übertragung der erlernten Richtlinie in die reale Welt haben das Potenzial, Generalisten-Roboter zu ermöglichen. Die Hauptherausforderung dieses Ansatzes besteht darin, die Simulation-zu-Realität (Sim-zu-Real) Lücken zu überbrücken. Frühere Methoden erfordern oft domänenspezifisches Wissen a priori. Wir argumentieren, dass ein einfacher Weg, um ein solches Wissen zu erlangen, darin besteht, Menschen zu bitten, die Ausführung der Roboter-Richtlinie in der realen Welt zu beobachten und zu unterstützen. Die Roboter können dann von den Menschen lernen, um verschiedene Sim-zu-Real-Lücken zu schließen. Wir schlagen TRANSIC vor, einen datengesteuerten Ansatz, um eine erfolgreiche Sim-zu-Real-Übertragung auf der Grundlage eines Human-in-the-Loop-Frameworks zu ermöglichen. TRANSIC ermöglicht es Menschen, Simulationsrichtlinien zu ergänzen, um verschiedene nicht modellierte Sim-zu-Real-Lücken ganzheitlich durch Intervention und Online-Korrektur zu überwinden. Restriktive Richtlinien können aus menschlichen Korrekturen gelernt und mit Simulationsrichtlinien für autonome Ausführung integriert werden. Wir zeigen, dass unser Ansatz eine erfolgreiche Sim-zu-Real-Übertragung bei komplexen und kontaktreichen Manipulationsaufgaben wie Möbelmontage erreichen kann. Durch die synergistische Integration von Richtlinien, die in der Simulation und von Menschen gelernt wurden, ist TRANSIC als ganzheitlicher Ansatz zur Bewältigung verschiedener, oft gleichzeitig bestehender Sim-zu-Real-Lücken wirksam. Es zeigt attraktive Eigenschaften wie das Skalieren mit menschlichem Aufwand. Videos und Code sind verfügbar unter https://transic-robot.github.io/