Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die kanonische Oberflächenabbildung verallgemeinert die Schlüsselpunkterkennung, indem jedem Pixel eines Objekts ein entsprechender Punkt in einer 3D-Vorlage zugeordnet wird. Bekannt geworden durch DensePose für die Analyse von Menschen, haben Autoren seither versucht, das Konzept auf weitere Kategorien anzuwenden, jedoch mit begrenztem Erfolg aufgrund hoher Kosten für manuelle Überwachung. In dieser Arbeit stellen wir SHIC vor, eine Methode zum Erlernen kanonischer Abbildungen ohne manuelle Überwachung, die bessere Ergebnisse als überwachte Methoden für die meisten Kategorien erzielt. Unsere Idee besteht darin, grundlegende Computer-Vision-Modelle wie DINO und Stable Diffusion zu nutzen, die offen sind und somit ausgezeichnete Vorkenntnisse über natürliche Kategorien besitzen. SHIC reduziert das Problem der Schätzung von Bild-zu-Vorlagen-Korrespondenzen auf die Vorhersage von Bild-zu-Bild-Korrespondenzen unter Verwendung von Merkmalen der Grundlagenmodelle. Die Reduktion erfolgt durch das Abgleichen von Bildern des Objekts mit nicht fotorealistischen Renderings der Vorlage, was den Prozess des Sammelns manueller Annotationen für diese Aufgabe nachahmt. Diese Korrespondenzen werden dann verwendet, um hochwertige kanonische Abbildungen für jedes interessierende Objekt zu überwachen. Wir zeigen auch, dass Bildgeneratoren die Realitätstreue der Vorlagenansichten weiter verbessern können, was eine zusätzliche Quelle der Überwachung für das Modell darstellt.
Autonome Agenten, die alltägliche digitale Aufgaben bewältigen (z. B. Lebensmitteleinkäufe für einen Haushalt bestellen), müssen nicht nur über mehrere Apps (z. B. Notizen, Messaging, Einkaufs-App) über APIs bedient werden, sondern auch auf der Grundlage ihrer Interaktion mit der Umgebung in iterativer Weise reichhaltigen Code mit komplexem Kontrollfluss generieren. Allerdings sind bestehende Benchmarks für die Werkzeugverwendung unzureichend, da sie nur Aufgaben abdecken, die eine einfache Abfolge von API-Aufrufen erfordern. Um diese Lücke zu schließen, haben wir die AppWorld Engine entwickelt, eine hochwertige Ausführungsumgebung (60.000 Zeilen Code) von 9 alltäglichen Apps, die über 457 APIs bedienbar sind und mit realistischen digitalen Aktivitäten bevölkert sind, die das Leben von ~100 fiktiven Benutzern simulieren. Anschließend haben wir den AppWorld Benchmark (40.000 Zeilen Code) erstellt, eine Sammlung von 750 natürlichen, vielfältigen und anspruchsvollen autonomen Agentenaufgaben, die eine reiche und interaktive Codegenerierung erfordern. Er unterstützt eine robuste programmatische Bewertung mit zustandsbasierten Unit-Tests, die verschiedene Möglichkeiten zur Aufgabenerfüllung ermöglichen und gleichzeitig unerwartete Änderungen, d. h. Kollateralschäden, überprüfen. Der modernste LLM, GPT-4o, löst nur ~49% unserer 'normalen' Aufgaben und ~30% der 'Herausforderungs'-Aufgaben, während andere Modelle mindestens 16% weniger lösen. Dies unterstreicht die Schwierigkeit des Benchmarks und das Potenzial von AppWorld, die Grenzen interaktiver Kodierungsagenten voranzutreiben. Die Projektwebsite ist unter https://appworld.dev/ verfügbar.
Wir schlagen Wolf vor, ein WOrLd-Zusammenfassungsrahmen für präzise Videobeschriftung. Wolf ist ein automatisierter Beschriftungsrahmen, der einen Expertenmischungsansatz übernimmt und die ergänzenden Stärken von Visionssprachmodellen (VLMs) nutzt. Durch die Nutzung sowohl von Bild- als auch von Videomodellen erfasst unser Rahmen verschiedene Informationsstufen und fasst sie effizient zusammen. Unser Ansatz kann zur Verbesserung des Videoverständnisses, der automatischen Beschriftung und der Beschriftung eingesetzt werden. Zur Bewertung der Beschriftungsqualität führen wir CapScore ein, eine LLM-basierte Metrik zur Bewertung der Ähnlichkeit und Qualität der generierten Beschriftungen im Vergleich zu den Ground-Truth-Beschriftungen. Darüber hinaus erstellen wir vier menschenannotierte Datensätze in drei Bereichen: autonomes Fahren, allgemeine Szenen und Robotik, um umfassende Vergleiche zu ermöglichen. Wir zeigen, dass Wolf im Vergleich zu state-of-the-art-Ansätzen aus der Forschungsgemeinschaft (VILA1.5, CogAgent) und kommerziellen Lösungen (Gemini-Pro-1.5, GPT-4V) eine überlegene Beschriftungsleistung erzielt. Beispielsweise verbessert Wolf im Vergleich zu GPT-4V CapScore sowohl qualitativ um 55,6% als auch ähnlichkeitsmäßig um 77,4% bei anspruchsvollen Fahrvideos. Schließlich etablieren wir einen Benchmark für die Videobeschriftung und führen eine Bestenliste ein, um Fortschritte im Videoverständnis, der Beschriftung und der Datenabstimmung zu beschleunigen. Bestenliste: https://wolfv0.github.io/leaderboard.html.
Wir präsentieren systematische Bemühungen beim Aufbau eines Modells für die Darstellung von mehrsprachigen Langtexten (TRM) mit langem Kontext und eines Rerankers von Grund auf für die Textsuche. Zunächst stellen wir einen Textkodierer (Basismodell) vor, der mit RoPE und Entfernung von Polsterung verbessert wurde und in einem nativen 8192-Token-Kontext (länger als die 512 vorheriger mehrsprachiger Kodierer) vortrainiert wurde. Anschließend konstruieren wir einen hybriden TRM und einen Cross-Kodierer-Reranker durch kontrastives Lernen. Evaluierungen zeigen, dass unser Textkodierer die gleiche Größe übertreffen kann wie der bisherige State-of-the-Art XLM-R. Gleichzeitig erreichen unser TRM und Reranker die Leistung der großformatigen State-of-the-Art BGE-M3-Modelle und erzielen bessere Ergebnisse bei Langtext-Suchbenchmarks. Weitere Analysen zeigen, dass unsere vorgeschlagenen Modelle eine höhere Effizienz sowohl beim Training als auch bei der Inferenz aufweisen. Wir glauben, dass ihre Effizienz und Wirksamkeit verschiedenen Forschungs- und Industrieanwendungen zugutekommen könnten.
Die Manipulation von stiftähnlichen Objekten in der Hand ist eine wichtige Fertigkeit in unserem täglichen Leben, da viele Werkzeuge wie Hämmer und Schraubendreher ähnlich geformt sind. Allerdings haben aktuelle lernbasierte Methoden Schwierigkeiten mit dieser Aufgabe aufgrund eines Mangels an hochwertigen Demonstrationen und der signifikanten Kluft zwischen Simulation und der realen Welt. In dieser Arbeit erweitern wir die Grenzen von lernbasierten In-Hand-Manipulationssystemen, indem wir die Fähigkeit demonstrieren, stiftähnliche Objekte zu drehen. Zunächst verwenden wir Reinforcement Learning, um eine Orakel-Policy mit privilegierten Informationen zu trainieren und in der Simulation einen hochwertigen Trajektoriendatensatz zu generieren. Dies dient zwei Zwecken: 1) das Vortrainieren einer sensorimotorischen Policy in der Simulation; 2) das Durchführen einer Open-Loop-Trajektorienwiedergabe in der realen Welt. Anschließend feinabstimmen wir die sensorimotorische Policy mithilfe dieser realen Trajektorien, um sie an die Dynamik der realen Welt anzupassen. Mit weniger als 50 Trajektorien lernt unsere Policy, mehr als zehn stiftähnliche Objekte mit unterschiedlichen physikalischen Eigenschaften für mehrere Umdrehungen zu drehen. Wir präsentieren eine umfassende Analyse unserer Designentscheidungen und teilen die während der Entwicklung gewonnenen Erkenntnisse.
Vision-Transformer haben das Gebiet der Computer Vision erheblich vorangetrieben, indem sie robuste Modellierungsfähigkeiten und einen globalen Rezeptionsbereich bieten. Allerdings begrenzen ihre hohen Rechenanforderungen ihre Anwendbarkeit bei der Verarbeitung langer Sequenzen. Um dieses Problem anzugehen, haben Zustandsraummodelle (SSMs) in Vision-Aufgaben an Bedeutung gewonnen, da sie eine lineare Rechenkomplexität bieten. Kürzlich wurde in Mamba2 der Zustandsraum-Dualität (SSD), eine verbesserte Variante von SSMs, eingeführt, um die Leistung und Effizienz des Modells zu verbessern. Die inhärente kausale Natur von SSD/SSMs beschränkt jedoch ihre Anwendungen auf nicht-kausale Vision-Aufgaben. Um diese Einschränkung zu überwinden, führen wir das Modell der visuellen Zustandsraum-Dualität (VSSD) ein, das ein nicht-kausales Format von SSD aufweist. Konkret schlagen wir vor, die Größenordnung der Interaktionen zwischen dem versteckten Zustand und Tokens zu verwerfen, während ihre relativen Gewichte beibehalten werden, was die Abhängigkeiten des Token-Beitrags von vorherigen Tokens entlastet. Zusammen mit der Einbeziehung von Multi-Scan-Strategien zeigen wir, dass die Scan-Ergebnisse integriert werden können, um Nicht-Kausalität zu erreichen, was nicht nur die Leistung von SSD in Vision-Aufgaben verbessert, sondern auch seine Effizienz steigert. Wir führen umfangreiche Experimente an verschiedenen Benchmarks durch, darunter Bildklassifizierung, Detektion und Segmentierung, bei denen VSSD bestehende SSM-basierte Modelle der Spitzenklasse übertrifft. Der Code und die Gewichte sind unter https://github.com/YuHengsss/VSSD verfügbar.
In jüngster Zeit lag der Schwerpunkt bei den Fortschritten in der 3D-Objektrekonstruktion aus Einzelbildern hauptsächlich auf der Verbesserung der Genauigkeit der Objektformen. Dennoch scheitern diese Techniken oft daran, die Wechselbeziehung zwischen dem Objekt, dem Boden und der Kamera genau zu erfassen. Als Ergebnis erscheinen die rekonstruierten Objekte häufig schwebend oder geneigt, wenn sie auf flachen Oberflächen platziert werden. Diese Einschränkung beeinträchtigt signifikant 3D-bewusste Bildbearbeitungsanwendungen wie Schattenwiedergabe und Objektpositionsmanipulation. Um dieses Problem anzugehen, stellen wir ORG (Objektrekonstruktion mit Boden) vor, eine neuartige Aufgabe, die darauf abzielt, die 3D-Objektgeometrie in Verbindung mit der Bodenoberfläche zu rekonstruieren. Unsere Methode verwendet zwei kompakte pixelbasierte Darstellungen, um die Beziehung zwischen Kamera, Objekt und Boden darzustellen. Experimente zeigen, dass das vorgeschlagene ORG-Modell die Objekt-Boden-Geometrie auf ungesehenen Daten effektiv rekonstruieren kann und im Vergleich zu herkömmlichen 3D-Rekonstruktionstechniken aus Einzelbildern die Qualität der Schattenerzeugung und der Positionsmanipulation des Objekts signifikant verbessert.