Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Webautomatisierung ist eine bedeutende Technik, die komplexe Webaufgaben durch die Automatisierung gängiger Webaktionen bewältigt, die operationale Effizienz steigert und den Bedarf für manuelle Eingriffe reduziert. Traditionelle Methoden wie Wrapper leiden unter begrenzter Anpassungsfähigkeit und Skalierbarkeit bei der Bewältigung einer neuen Website. Andererseits zeigen generative Agenten, die von großen Sprachmodellen (LLMs) unterstützt werden, eine geringe Leistung und Wiederverwendbarkeit in offenen Szenarien. In dieser Arbeit stellen wir eine Crawler-Generierungsaufgabe für vertikale Informationswebseiten vor und das Paradigma der Kombination von LLMs mit Crawlern, was den Crawlern hilft, diverse und sich ändernde Webumgebungen effizienter zu handhaben. Wir schlagen AutoCrawler vor, ein Zwei-Stufen-Framework, das die hierarchische Struktur von HTML für ein progressives Verständnis nutzt. Durch top-down und step-back Operationen kann AutoCrawler aus fehlerhaften Aktionen lernen und kontinuierlich HTML für eine bessere Aktionsgenerierung optimieren. Wir führen umfassende Experimente mit mehreren LLMs durch und zeigen die Wirksamkeit unseres Frameworks auf. Die Ressourcen zu dieser Arbeit sind unter https://github.com/EZ-hwh/AutoCrawler verfügbar.
Wir stellen Groma vor, ein Multimodales Großes Sprachmodell (MLLM) mit fundierter und feingranularer visueller Wahrnehmungsfähigkeit. Über das ganzheitliche Bildverständnis hinaus ist Groma versiert in Aufgaben auf Regionsebene wie der Regionserläuterung und visuellen Verankerung. Diese Fähigkeiten basieren auf einem lokalisierten visuellen Tokenisierungsmechanismus, bei dem ein Bildinput in interessante Regionen zerlegt und anschließend in Regionstoken codiert wird. Durch die Integration von Regionstoken in Benutzeranweisungen und Modellantworten ermöglichen wir Groma nahtlos, benutzerspezifische Regionseingaben zu verstehen und seine textuelle Ausgabe an Bilder zu verankern. Darüber hinaus kuratieren wir zur Verbesserung der verankerten Chatfähigkeit von Groma einen visuell verankerten Anweisungsdatensatz unter Verwendung der leistungsstarken GPT-4V und visuellen Anregungstechniken. Im Vergleich zu MLLMs, die auf das Sprachmodell oder externe Module zur Lokalisierung angewiesen sind, zeigt Groma durchweg überlegene Leistungen in Standard-Verweis- und Verankerungs-Benchmarks und unterstreicht die Vorteile der Einbettung von Lokalisierung in die Bild-Tokenisierung. Projektseite: https://groma-mllm.github.io/.
Die textzentrierte visuelle Frage-Antwort (VQA) hat mit der Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) große Fortschritte gemacht, dennoch bleiben Open-Source-Modelle hinter führenden Modellen wie GPT4V und Gemini zurück, teilweise aufgrund eines Mangels an umfangreichen, hochwertigen Anleitungstuning-Daten. Zu diesem Zweck stellen wir einen neuen Ansatz zur Erstellung eines massiven, hochwertigen Anleitungstuning-Datensatzes, Square-10M, vor, der unter Verwendung von geschlossenen MLLMs generiert wird. Der Datenkonstruktionsprozess, genannt Square, besteht aus vier Schritten: Selbstbefragung, Beantwortung, Schlussfolgerung und Bewertung. Unsere Experimente mit Square-10M führten zu drei wichtigen Erkenntnissen: 1) Unser Modell, TextSquare, übertrifft erheblich die bisherigen Open-Source-Text-zentrierten MLLMs und setzt einen neuen Maßstab auf OCRBench (62,2%). Es übertrifft sogar erstklassige Modelle wie GPT4V und Gemini in 6 von 10 textzentrierten Benchmarks. 2) Darüber hinaus zeigen wir die entscheidende Rolle von VQA-Schlussfolgerungsdaten bei der Bereitstellung umfassender Kontexteinblicke für spezifische Fragen. Dies verbessert nicht nur die Genauigkeit, sondern mildert auch Halluzinationen signifikant. Speziell erzielt TextSquare durchschnittlich 75,1% in vier allgemeinen VQA- und Halluzinationsbewertungsdatensätzen und übertrifft damit bisherige Spitzenmodelle. 3) Bemerkenswert ist das Phänomen, das bei der Skalierung von textzentrierten VQA-Datensätzen beobachtet wird: Der exponentielle Anstieg des Anleitungstuning-Datenvolumens ist direkt proportional zur Verbesserung der Modellleistung, was die Notwendigkeit des Datensatzumfangs und der hohen Qualität von Square-10M bestätigt.
Realistische Objektinteraktionen sind entscheidend für die Schaffung immersiver virtueller Erlebnisse, doch die Synthese realistischer 3D-Objektdynamiken als Reaktion auf neue Interaktionen bleibt eine bedeutende Herausforderung. Im Gegensatz zur bedingungslosen oder textbedingten Dynamikerzeugung erfordert die aktionsbedingte Dynamik die Wahrnehmung der physikalischen Materialeigenschaften von Objekten und die Verankerung der 3D-Bewegungsvorhersage auf diesen Eigenschaften, wie beispielsweise der Objektsteifigkeit. Die Schätzung physikalischer Materialeigenschaften ist jedoch ein offenes Problem aufgrund des Mangels an Material-Referenzdaten, da die Messung dieser Eigenschaften für reale Objekte äußerst schwierig ist. Wir stellen PhysDreamer vor, einen physikbasierten Ansatz, der statischen 3D-Objekten interaktive Dynamiken verleiht, indem er die durch Videoerzeugungsmodelle gelernten Objektdynamikprioritäten nutzt. Durch Destillieren dieser Prioritäten ermöglicht PhysDreamer die Synthese realistischer Objektreaktionen auf neue Interaktionen, wie externe Kräfte oder Agentenmanipulationen. Wir demonstrieren unseren Ansatz an verschiedenen Beispielen elastischer Objekte und evaluieren die Realität der synthetisierten Interaktionen durch eine Benutzerstudie. PhysDreamer macht einen Schritt hin zu ansprechenderen und realistischeren virtuellen Erlebnissen, indem statischen 3D-Objekten ermöglicht wird, auf interaktive Reize auf eine physikalisch plausible Weise dynamisch zu reagieren. Besuchen Sie unsere Projektseite unter https://physdreamer.github.io/.
Die Umformulierung von Abfragen, die darauf abzielt, effizientere Abfragen zu generieren, indem die Struktur einer SQL-Abfrage geändert wird, ohne das Abfrageergebnis zu verändern, ist ein wichtiges Forschungsproblem. Um die Äquivalenz zwischen der umgeschriebenen Abfrage und der Originalabfrage während der Umformulierung aufrechtzuerhalten, schreiben traditionelle Methoden zur Abfrageumformung die Abfragen immer gemäß bestimmter Umformungsregeln um. Allerdings bestehen weiterhin einige Probleme. Erstens sind bestehende Methoden zur Ermittlung der optimalen Wahl oder Reihenfolge von Umformungsregeln noch begrenzt und der Prozess verursacht immer hohe Ressourcenkosten. Methoden, die die Entdeckung neuer Umformungsregeln beinhalten, erfordern typischerweise komplizierte Beweise struktureller Logik oder umfangreiche Benutzerinteraktionen. Zweitens sind aktuelle Methoden zur Abfrageumformung in hohem Maße auf DBMS-Kostenabschätzungen angewiesen, die oft ungenau sind. In diesem Artikel adressieren wir diese Probleme, indem wir eine neuartige Methode zur Abfrageumformung namens LLM-R2 vorschlagen, die ein großes Sprachmodell (LLM) übernimmt, um mögliche Umformungsregeln für ein Datenbankumformungssystem vorzuschlagen. Um die Inferenzfähigkeit des LLM bei der Empfehlung von Umformungsregeln weiter zu verbessern, trainieren wir ein kontrastives Modell durch Lehrpläne, um Abfrage-Repräsentationen zu erlernen und effektive Abfrage-Demonstrationen für das LLM auszuwählen. Experimentelle Ergebnisse haben gezeigt, dass unsere Methode die Abfrageausführungseffizienz signifikant verbessern kann und die Basismethoden übertrifft. Darüber hinaus zeichnet sich unsere Methode durch hohe Robustheit über verschiedene Datensätze aus.
Die 3D-Gauß-Splatting-Methode wurde kürzlich als vielseitige und effektive Methode zur Szenenrekonstruktion und Synthese neuer Ansichten angenommen, aufgrund ihrer hochwertigen Ergebnisse und Kompatibilität mit der Hardware-Rasterisierung. Trotz ihrer Vorteile ist die Abhängigkeit des Gauß-Splattings von hochwertiger Punktewolkeninitialisierung durch Struktur-aus-Bewegung (SfM)-Algorithmen eine signifikante Einschränkung, die überwunden werden muss. Zu diesem Zweck untersuchen wir verschiedene Initialisierungsstrategien für das Gauß-Splatting und gehen darauf ein, wie volumetrische Rekonstruktionen aus Neuronalen Strahlungsfeldern (NeRF) genutzt werden können, um die Abhängigkeit von SfM-Daten zu umgehen. Unsere Ergebnisse zeigen, dass zufällige Initialisierung viel besser abschneiden kann, wenn sie sorgfältig gestaltet wird, und dass durch die Verwendung einer Kombination aus verbesserten Initialisierungsstrategien und Strukturdestillation aus kostengünstigen NeRF-Modellen äquivalente oder manchmal sogar überlegene Ergebnisse im Vergleich zu denen, die aus SfM-Initialisierung gewonnen wurden, erzielt werden können.
In letzter Zeit wurden mehrere automatisierte Programmreparatur (APR)-Techniken auf der Grundlage großer Sprachmodelle (LLMs) vorgeschlagen, um die Reparaturleistung zu verbessern. Während diese Techniken hauptsächlich auf der Reparatur auf Einzelzeilen- oder Hunk-Ebene basieren, sehen sie sich in der realen Anwendung aufgrund des begrenzten Reparaturaufgabenbereichs und der kostspieligen Fehlerlokalisierung auf Anweisungsebene erheblichen Herausforderungen gegenüber. Die praktischere Funktionsebene der APR, die den Aufgabenbereich der APR erweitert, um gesamte fehlerhafte Funktionen zu reparieren und nur eine kostengünstige Fehlerlokalisierung auf Funktionsebene erfordert, bleibt jedoch weitgehend unerforscht. In diesem Artikel führen wir die erste umfassende Studie zur LLM-basierten APR auf Funktionsebene durch, einschließlich der Untersuchung der Auswirkungen des Few-Shot-Lernmechanismus und der zusätzlichen reparaturrelevanten Informationen. Konkret verwenden wir sechs weit verbreitete LLMs und erstellen einen Benchmark sowohl in den Datensätzen Defects4J 1.2 als auch 2.0. Unsere Studie zeigt, dass LLMs mit Zero-Shot-Lernen bereits leistungsstarke Techniken zur APR auf Funktionsebene sind, während die Anwendung des Few-Shot-Lernmechanismus zu unterschiedlichen Reparaturleistungen führt. Darüber hinaus stellen wir fest, dass die direkte Anwendung der zusätzlichen reparaturrelevanten Informationen auf LLMs die Reparaturleistung auf Funktionsebene signifikant erhöht. Inspiriert von unseren Ergebnissen schlagen wir eine LLM-basierte APR-Technik auf Funktionsebene vor, nämlich SRepair, die ein Dual-LLM-Framework verwendet, um die Kraft der zusätzlichen reparaturrelevanten Informationen zur Verbesserung der Reparaturleistung zu nutzen. Die Evaluierungsergebnisse zeigen, dass SRepair 300 einzelne Funktionsfehler im Defects4J-Datensatz korrekt beheben kann und dabei alle bisherigen APR-Techniken um mindestens 85% übertrifft, ohne die kostspielige Fehlerlokalisierung auf Anweisungsebene zu benötigen. Darüber hinaus behebt SRepair erfolgreich 32 mehrfunktionale Fehler im Defects4J-Datensatz, was unseres Wissens nach erstmals von einer APR-Technik erreicht wurde.