Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Inference-Zeit-Optimierung skaliert die Berechnung, um gezielte Denkschritte für eine effektive Leistung abzuleiten. Während bisherige suchbasierte Strategien die Kurzsichtigkeit der autoregressiven Generierung angehen, führt der riesige Suchraum zu übermäßiger Exploration und unzureichender Ausnutzung. Um ein effizientes Gleichgewicht zu finden und den optimalen Schritt abzuleiten, formulieren wir die Dekodierungsstrategie als Vorausschau-Sampling, das simulierte zukünftige Schritte nutzt, um eine global optimale Schätzung des Schritts zu erhalten. Darauf aufbauend schlagen wir eine neuartige Dekodierungsstrategie namens phi-Decoding vor. Um eine präzise und ausdrucksstarke Schätzung des Schrittwerts zu liefern, approximiert phi-Decoding zwei Verteilungen durch Vorausschau und Clustering. Durch das Sampling aus der gemeinsamen Verteilung können die optimalen Schritte für die Ausnutzung ausgewählt werden. Um eine adaptive Berechnungszuweisung zu unterstützen, schlagen wir In-Breite- und In-Tiefe-Beschneidungsstrategien vor, die eine leichtgewichtige Lösung zur Erreichung von Inferenz-Effizienz bieten. Umfangreiche Experimente über sieben Benchmarks zeigen, dass phi-Decoding starke Baselines sowohl in der Leistung als auch in der Effizienz übertrifft. Zusätzliche Analysen demonstrieren seine Generalisierbarkeit über verschiedene LLMs und Skalierbarkeit über ein breites Spektrum von Rechenbudgets. Der Code wird unter https://github.com/xufangzhi/phi-Decoding veröffentlicht, und das Open-Source-PyPI-Paket wird in Kürze verfügbar sein.
Trotz des jüngsten Erfolgs von Bild-Text-Kontrastmodellen wie CLIP und SigLIP kämpfen diese Modelle oft mit visuell zentrierten Aufgaben, die ein hochpräzises Bildverständnis erfordern, wie Zählen, Tiefenschätzung und feinkörnige Objekterkennung. Diese Modelle, die eine Sprachausrichtung durchführen, neigen dazu, hochrangige Semantik gegenüber dem visuellen Verständnis zu priorisieren, was ihr Bildverständnis schwächt. Auf der anderen Seite sind visuell fokussierte Modelle hervorragend in der Verarbeitung visueller Informationen, haben jedoch Schwierigkeiten, Sprache zu verstehen, was ihre Flexibilität für sprachgesteuerte Aufgaben einschränkt. In dieser Arbeit stellen wir TULIP vor, eine Open-Source, direkte Alternative zu bestehenden CLIP-ähnlichen Modellen. Unsere Methode nutzt generative Datenaugmentierung, verbessertes Bild-Bild- und Text-Text-Kontrastlernen sowie Bild-/Text-Rekonstruktionsregularisierung, um feinkörnige visuelle Merkmale zu erlernen und gleichzeitig die globale semantische Ausrichtung beizubehalten. Unser Ansatz, der auf über 1 Milliarde Parameter skaliert, übertrifft bestehende State-of-the-Art (SOTA)-Modelle in mehreren Benchmarks, etabliert eine neue SOTA Zero-Shot-Leistung auf ImageNet-1K, liefert eine bis zu 2-fache Verbesserung gegenüber SigLIP auf RxRx1 in der linearen Sondierung für Few-Shot-Klassifikation und verbessert Vision-Language-Modelle, indem er über 3-mal höhere Werte als SigLIP auf MMVP erreicht. Unser Code/Checkpoints sind verfügbar unter https://tulip-berkeley.github.io.
Dreiecksnetze spielen eine entscheidende Rolle in 3D-Anwendungen für effiziente Manipulation und Darstellung. Während autoregressive Methoden strukturierte Netze durch die Vorhersage diskreter Scheitelpunkt-Tokens erzeugen, sind sie oft durch begrenzte Flächenanzahlen und Netzunvollständigkeit eingeschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir DeepMesh vor, ein Framework, das die Netzgenerierung durch zwei zentrale Innovationen optimiert: (1) eine effiziente Vorabtrainingsstrategie, die einen neuartigen Tokenisierungsalgorithmus sowie Verbesserungen in der Datenkuratierung und -verarbeitung umfasst, und (2) die Einführung von Reinforcement Learning (RL) in die 3D-Netzgenerierung, um eine Ausrichtung an menschlichen Präferenzen durch Direct Preference Optimization (DPO) zu erreichen. Wir entwickeln einen Bewertungsstandard, der menschliche Bewertungen mit 3D-Metriken kombiniert, um Präferenzpaare für DPO zu sammeln und sowohl visuelle Anziehungskraft als auch geometrische Genauigkeit sicherzustellen. Basierend auf Punktwolken und Bildern erzeugt DeepMesh Netze mit komplexen Details und präziser Topologie und übertrifft dabei state-of-the-art Methoden sowohl in der Präzision als auch in der Qualität. Projektseite: https://zhaorw02.github.io/DeepMesh/
Foundation Models, die mit großen Datenmengen trainiert wurden, haben bemerkenswerte Fähigkeiten im Bereich des Denkens und der Generierung in den Domänen Text, Bilder, Audio und Video gezeigt. Unser Ziel bei Roblox ist es, ein solches Foundation Model für 3D-Intelligenz zu entwickeln – ein Modell, das Entwickler dabei unterstützen kann, alle Aspekte einer Roblox-Erfahrung zu erstellen, von der Generierung von 3D-Objekten und Szenen über das Rigging von Charakteren für Animationen bis hin zur Erstellung programmatischer Skripte, die Objektverhalten beschreiben. Wir diskutieren drei zentrale Designanforderungen für ein solches 3D-Foundation Model und präsentieren dann unseren ersten Schritt zum Aufbau eines solchen Modells. Wir gehen davon aus, dass 3D-geometrische Formen ein zentraler Datentyp sein werden und beschreiben unsere Lösung für einen 3D-Shape-Tokenizer. Wir zeigen, wie unser Tokenisierungsschema in Anwendungen für Text-zu-Form-Generierung, Form-zu-Text-Generierung und Text-zu-Szene-Generierung eingesetzt werden kann. Wir demonstrieren, wie diese Anwendungen mit bestehenden Large Language Models (LLMs) zusammenarbeiten können, um Szenenanalysen und -schlussfolgerungen durchzuführen. Wir schließen mit einer Diskussion, die unseren Weg zur Entwicklung eines vollständig vereinheitlichten Foundation Models für 3D-Intelligenz skizziert.
Die Konstruktion eines Generalisierten Wissensgraphen (Generalized Knowledge Graph, GKG), einschließlich Wissensgraphen, Ereigniswissensgraphen und Commonsense-Wissensgraphen, ist grundlegend für verschiedene Aufgaben der natürlichen Sprachverarbeitung. Aktuelle Studien erstellen diese Arten von Graphen typischerweise separat, wobei ganzheitliche Erkenntnisse und potenzielle Vereinheitlichungen, die in Bezug auf Rechenressourcen und Nutzungsperspektiven vorteilhaft sein könnten, übersehen werden. Eine zentrale Herausforderung bei der Entwicklung eines einheitlichen Frameworks für GKG sind jedoch Hindernisse, die sich aus aufgabenspezifischen Unterschieden ergeben. In dieser Studie schlagen wir ein einheitliches Framework zur Konstruktion generalisierter Wissensgraphen vor, um diese Herausforderung zu bewältigen. Zunächst sammeln wir Daten aus 15 Unteraufgaben in 29 Datensätzen über die drei Arten von Graphen hinweg und kategorisieren sie in In-Sample-, Gegenaufgaben- und Out-of-Distribution (OOD)-Daten. Anschließend schlagen wir ein dreistufiges Curriculum-Learning-Fine-Tuning-Framework vor, indem wir iterativ Wissen aus den drei Arten von Graphen in Large Language Models einfügen. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Modell die Konstruktion aller drei Graphentypen über In-Domain-, OOD- und Gegenaufgaben-Daten hinweg verbessert.
Die zeitliche Qualität ist ein entscheidender Aspekt der Videogenerierung, da sie konsistente Bewegungen und realistische Dynamik über die Frames hinweg gewährleistet. Dennoch bleibt die Erzielung hoher zeitlicher Kohärenz und Vielfalt eine Herausforderung. In dieser Arbeit untersuchen wir erstmals die zeitliche Augmentierung in der Videogenerierung und führen FluxFlow als initiale Untersuchungsstrategie ein, die darauf abzielt, die zeitliche Qualität zu verbessern. Auf der Datenebene operierend, wendet FluxFlow kontrollierte zeitliche Störungen an, ohne dass architektonische Modifikationen erforderlich sind. Umfangreiche Experimente auf den Benchmarks UCF-101 und VBench zeigen, dass FluxFlow die zeitliche Kohärenz und Vielfalt bei verschiedenen Videogenerierungsmodellen, einschließlich U-Net, DiT und AR-basierten Architekturen, signifikant verbessert, während die räumliche Treue erhalten bleibt. Diese Ergebnisse unterstreichen das Potenzial der zeitlichen Augmentierung als einfachen, aber effektiven Ansatz zur Steigerung der Qualität der Videogenerierung.
Die rasanten Fortschritte in der generativen Technologie haben sich als ein zweischneidiges Schwert erwiesen. Während sie leistungsstarke Werkzeuge bieten, die den Komfort erhöhen, bergen sie auch erhebliche gesellschaftliche Bedenken. Als Verteidigungsmaßnahmen mangelt es den derzeitigen Methoden zur Erkennung synthetischer Bilder oft an textueller Interpretierbarkeit auf Artefaktebene und sie konzentrieren sich übermäßig auf die Erkennung von Bildmanipulationen. Zudem leiden aktuelle Datensätze meist unter veralteten Generatoren und einem Mangel an feingranularen Annotationen. In diesem Artikel stellen wir SynthScars vor, einen hochwertigen und vielfältigen Datensatz, der aus 12.236 vollständig synthetischen Bildern mit Annotationen von menschlichen Experten besteht. Er umfasst 4 verschiedene Bildinhaltsarten, 3 Kategorien von Artefakten und feingranulare Annotationen, die pixelgenaue Segmentierung, detaillierte textuelle Erklärungen und Artefakt-Kategorielabels abdecken. Darüber hinaus schlagen wir LEGION (LEarning to Ground and explain for Synthetic Image detectiON) vor, ein multimodales großes Sprachmodell (MLLM)-basiertes Framework zur Analyse von Bildfälschungen, das Artefakterkennung, Segmentierung und Erklärung integriert. Aufbauend auf dieser Fähigkeit untersuchen wir LEGION weiterhin als Controller, indem wir es in Bildverfeinerungspipelines integrieren, um die Erzeugung von qualitativ hochwertigeren und realistischeren Bildern zu steuern. Umfangreiche Experimente zeigen, dass LEGION bestehende Methoden in mehreren Benchmarks übertrifft, insbesondere den zweitbesten traditionellen Experten auf SynthScars um 3,31 % in mIoU und 7,75 % im F1-Score übertrifft. Darüber hinaus zeigen die unter seiner Anleitung verfeinerten Bilder eine stärkere Übereinstimmung mit menschlichen Präferenzen. Der Code, das Modell und der Datensatz werden veröffentlicht.
Große Sprachmodelle (LLMs) haben vielversprechende Fähigkeiten bei der Lösung mathematischer Denkaufgaben gezeigt, wobei Chain-of-Thought (CoT)-Daten als wesentliche Komponente zur Steuerung der Antwortgenerierung genutzt werden. Aktuelle Paradigmen generieren CoT und Antworten in der Regel direkt für eine gegebene Aufgabe, was sich in gewissem Maße von menschlichen Problemlösungsstrategien unterscheidet. Menschen lösen Probleme oft, indem sie sich an analoge Fälle erinnern und deren Lösungen nutzen, um über die aktuelle Aufgabe nachzudenken. Inspiriert von diesem kognitiven Prozess schlagen wir MetaLadder vor, ein neuartiges Framework, das LLMs explizit dazu anregt, Meta-Probleme – also strukturell oder semantisch analoge Probleme – sowie deren CoT-Lösungen zu rekapitulieren und zu reflektieren, bevor sie sich der Zielaufgabe widmen. Zusätzlich führen wir einen Mechanismus zur Problemumformulierung ein, um das Verständnis des Modells für die Zielaufgabe zu verbessern, indem die ursprüngliche Frage neu generiert wird, was die Genauigkeit der Schlussfolgerung weiter steigert. Dadurch kann das Modell einen Transfer des Denkens von analogen Problemen erreichen, was die menschliche Fähigkeit des „Lernens an Beispielen“ und der Generalisierung nachahmt. Umfangreiche Experimente auf mathematischen Benchmarks zeigen, dass unser MetaLadder die Problemlösungsgenauigkeit von LLMs erheblich steigert und dabei standardmäßige CoT-basierte Methoden (10,3 % Genauigkeitsgewinn) und andere Methoden deutlich übertrifft. Unser Code und unsere Daten wurden unter https://github.com/LHL3341/MetaLadder veröffentlicht.
Visuelles Denken ist zentral für die menschliche Kognition und ermöglicht es Individuen, ihre Umgebung zu interpretieren und abstrakt zu verstehen. Obwohl neuere Multimodale Große Sprachmodelle (MLLMs) beeindruckende Leistungen in sprachlichen und visuell-sprachlichen Aufgaben gezeigt haben, messen bestehende Benchmarks hauptsächlich erkennungsbasierte Fähigkeiten und bewerten echte visuelle Denkfähigkeiten unzureichend. Um diese kritische Lücke zu schließen, führen wir VERIFY ein, einen Benchmark, der explizit entwickelt wurde, um die visuellen Denkfähigkeiten modernster MLLMs zu isolieren und rigoros zu bewerten. VERIFY zwingt Modelle, sich hauptsächlich auf visuelle Informationen zu stützen, indem nur minimaler textueller Kontext bereitgestellt wird, um die Abhängigkeit von domänenspezifischem Wissen und sprachlichen Verzerrungen zu reduzieren. Jede Aufgabe wird von einem menschlich annotierten Denkpfad begleitet, was VERIFY zum ersten Benchmark macht, der eine detaillierte Bewertung der Entscheidungsprozesse von Modellen ermöglicht. Zusätzlich schlagen wir neue Metriken vor, die die Treue des visuellen Denkens über die bloße Genauigkeit hinaus bewerten und kritische Ungleichgewichte in den aktuellen Denkmustern der Modelle aufzeigen. Unsere umfassende Bewertung führender MLLMs deckt erhebliche Einschränkungen auf und unterstreicht die Notwendigkeit eines ausgewogenen und ganzheitlichen Ansatzes sowohl für die Wahrnehmung als auch für das Denken. Für weitere Vorschauen und Tests besuchen Sie unsere Projektseite (https://verify-eqh.pages.dev/).
Diffusionsmodelle haben bemerkenswerte Leistungen in der Bildsynthese gezeigt, erfordern jedoch umfangreiche Rechen- und Speicherressourcen für das Training, die Feinabstimmung und die Inferenz. Obwohl fortschrittliche Quantisierungstechniken den Speicherbedarf für die Inferenz erfolgreich minimiert haben, benötigen das Training und die Feinabstimmung dieser quantisierten Modelle weiterhin viel Speicher, möglicherweise aufgrund von Dequantisierung für die genaue Berechnung von Gradienten und/oder Backpropagation für gradientenbasierte Algorithmen. Speichereffiziente Feinabstimmung ist jedoch besonders wünschenswert für Anwendungen wie Personalisierung, die oft auf Edge-Geräten wie Mobiltelefonen mit privaten Daten ausgeführt werden müssen. In dieser Arbeit gehen wir diese Herausforderung an, indem wir ein Diffusionsmodell mit Personalisierung via Textual Inversion quantisieren und eine Optimierung nullter Ordnung auf Personalisierungstokens ohne Dequantisierung nutzen, sodass keine Speicherung von Gradienten und Aktivierungen für die Backpropagation erforderlich ist, die erheblichen Speicher verbraucht. Da eine Gradientenschätzung mit Optimierung nullter Ordnung für ein einzelnes oder wenige Bilder in der Personalisierung recht verrauscht ist, schlagen wir vor, den geschätzten Gradienten durch Projektion auf einen Unterraum zu entrauschen, der mit der Vergangenheit der Tokens konstruiert wird, genannt Subspace Gradient. Zusätzlich haben wir den Einfluss von Text-Einbettungen auf die Bildgenerierung untersucht, was zu unserem vorgeschlagenen Sampling von Zeitschritten führte, genannt Partial Uniform Timestep Sampling für das Sampling mit effektiven Diffusion-Zeitschritten. Unsere Methode erreicht vergleichbare Leistungen zu früheren Methoden in Bild- und Textausrichtungswerten für die Personalisierung von Stable Diffusion mit nur Vorwärtspässen, während der Trainingsspeicherbedarf um bis zu das 8,2-fache reduziert wird.
Aktuelle Forschungen zum Decompose-Then-Verify-Paradigma zur Bewertung der Faktizität von Langtexten behandeln typischerweise die Zerlegung und Verifizierung isoliert, wobei ihre Interaktionen und potenzielle Fehlausrichtung übersehen werden. Wir stellen fest, dass bestehende Zerlegungsstrategien, die üblicherweise handgefertigte Demonstrationen sind, nicht gut mit nachgelagerten Verifizierern in Bezug auf die Atomarität – eine neuartige Metrik zur Quantifizierung der Informationsdichte – übereinstimmen, was zu suboptimalen Verifizierungsergebnissen führt. Wir formulieren die Suche nach der optimalen Zerlegungsstrategie für eine optimale Verifizierung als ein bilevel Optimierungsproblem. Um eine Lösung für dieses stark NP-schwere Problem anzunähern, schlagen wir die dynamische Zerlegung vor, ein Reinforcement-Learning-Framework, das Feedback des Verifizierers nutzt, um eine Strategie zur dynamischen Zerlegung von Behauptungen in die vom Verifizierer bevorzugte Atomarität zu erlernen. Experimentelle Ergebnisse zeigen, dass die dynamische Zerlegung bestehende Zerlegungsstrategien übertrifft und die Verifizierungszuversicht um 0,07 und die Genauigkeit um 0,12 (auf einer Skala von 0-1) im Durchschnitt über verschiedene Verifizierer, Datensätze und Atomaritäten der Eingabebehauptungen verbessert.
Die Entwicklung von KI-Agenten zur autonomen Manipulation grafischer Benutzeroberflächen ist eine langwierige und herausfordernde Aufgabe. Jüngste Fortschritte in den Skalierungsgesetzen von Daten inspirieren uns dazu, Computer-Nutzungs-Agenten mit einem skalierten Befehlssatz zu trainieren. Dennoch erfordert das Training von Agenten durch Verhaltensklonung immense Mengen an hochwertigen Trajektorien. Um den Skalierungsbedarf zu decken, haben wir STEVE entworfen, eine Schritt-Verifikations-Pipeline für das Training von Computer-Nutzungs-Agenten. Zunächst erstellen wir einen umfangreichen Befehlssatz für Computer-Nutzungs-Agenten und sammeln Trajektorien-Daten mit einigen suboptimalen Agenten. GPT-4o wird verwendet, um die Korrektheit jedes Schritts in den Trajektorien basierend auf den Bildschirmen vor und nach der Ausführung der Aktion zu überprüfen und jedem Schritt ein binäres Label zuzuweisen. Schließlich wenden wir die Kahneman- und Tversky-Optimierung an, um den Agenten anhand der binären schrittweisen Labels zu optimieren. Umfangreiche Experimente zeigen, dass unser Agent durch die Nutzung sowohl positiver als auch negativer Aktionen innerhalb einer Trajektorie das überwachte Feinabstimmen übertrifft. Zudem ermöglicht uns STEVE, ein 7B-Vision-Sprach-Modell als Computer-Nutzungs-Agent zu trainieren, das führende Leistungen in der anspruchsvollen Live-Desktop-Umgebung WinAgentArena bei großer Effizienz und reduzierten Kosten erzielt. Code und Daten: https://github.com/FanbinLu/STEVE.
Große Sprachmodell-Agenten (LLM-Agenten) müssen in realen Aufgaben mehrstufige Interaktionen durchführen. Allerdings versagen bestehende mehrstufige RL-Algorithmen (Reinforcement Learning) zur Optimierung von LLM-Agenten darin, eine effektive Kreditvergabe über mehrere Schritte hinweg zu leisten, während sie gleichzeitig die Generalisierungsfähigkeiten von LLMs nutzen. Es bleibt unklar, wie solche Algorithmen entwickelt werden können. Um dies zu untersuchen, führen wir zunächst einen neuen Benchmark, ColBench, ein, bei dem ein LLM-Agent über mehrere Schritte hinweg mit einem menschlichen Mitarbeiter interagiert, um realistische Aufgaben in der Backend-Programmierung und Frontend-Gestaltung zu lösen. Aufbauend auf diesem Benchmark schlagen wir einen neuartigen RL-Algorithmus vor, SWEET-RL (RL mit schrittweiser Bewertung auf Basis von Trainingsinformationen), der ein sorgfältig gestaltetes Optimierungsziel verwendet, um ein Kritikmodell mit Zugriff auf zusätzliche Trainingsinformationen zu trainieren. Das Kritikmodell liefert schrittweise Belohnungen zur Verbesserung des Politikmodells. Unsere Experimente zeigen, dass SWEET-RL im Vergleich zu anderen state-of-the-art mehrstufigen RL-Algorithmen eine absolute Verbesserung von 6 % bei Erfolgs- und Gewinnraten auf ColBench erzielt und es Llama-3.1-8B ermöglicht, die Leistung von GPT4-o bei der realistischen kollaborativen Inhaltserstellung zu erreichen oder zu übertreffen.
Jüngste Fortschritte im Pre-Training von LLMs (Large Language Models) waren durch immer größere Kontextfenster geprägt, um längere Sequenzen verarbeiten zu können. Unsere Pilotstudie zeigt jedoch, dass Modelle, die mit kürzeren Kontextfenstern vortrainiert wurden, bei einem festen Token-Budget durchweg besser abschneiden als ihre Pendants mit langen Kontextfenstern. Diese Erkenntnis motiviert uns, eine optimale Strategie für die Planung von Kontextfenstern zu erforschen, um die Fähigkeit zur Verarbeitung langer Kontexte besser mit der Effizienz des Pre-Trainings in Einklang zu bringen. Zu diesem Zweck schlagen wir SkyLadder vor, einen einfachen, aber effektiven Ansatz, der einen Übergang von kurzen zu langen Kontextfenstern implementiert. SkyLadder bewahrt eine starke Leistung auf Standard-Benchmarks, während es die Ergebnisse der Baselines bei Aufgaben mit langen Kontexten erreicht oder übertrifft. Durch umfangreiche Experimente haben wir 1B-Parameter-Modelle (bis zu 32K Kontext) und 3B-Parameter-Modelle (8K Kontext) auf 100B Tokens vortrainiert und gezeigt, dass SkyLadder auf gängigen Benchmarks konsistente Gewinne von bis zu 3,7 % erzielt, während es im Vergleich zu den Baselines eine bis zu 22 % schnellere Trainingsgeschwindigkeit erreicht. Der Code ist unter https://github.com/sail-sg/SkyLadder verfügbar.
Wir stellen MusicInfuser vor, einen Ansatz zur Erzeugung hochwertiger Tanzvideos, die mit einem spezifizierten Musiktrack synchronisiert sind. Anstatt zu versuchen, ein neues multimodales Audio-Video-Modell zu entwerfen und zu trainieren, zeigen wir, wie bestehende Video-Diffusionsmodelle durch die Einführung einer leichtgewichtigen Musik-Video-Cross-Attention und eines Low-Rank-Adapters an musikalische Eingaben angepasst werden können. Im Gegensatz zu früheren Arbeiten, die Motion-Capture-Daten erfordern, feintunet unser Ansatz ausschließlich auf Tanzvideos. MusicInfuser erreicht eine hochwertige musikgesteuerte Videogenerierung, während die Flexibilität und generativen Fähigkeiten der zugrunde liegenden Modelle erhalten bleiben. Wir führen ein Bewertungsframework ein, das Video-LLMs verwendet, um mehrere Dimensionen der Tanzgenerierungsqualität zu bewerten. Die Projektseite und der Code sind unter https://susunghong.github.io/MusicInfuser verfügbar.
Die dekompositionelle Rekonstruktion von 3D-Szenen mit vollständigen Formen und detaillierten Texturen aller darin enthaltenen Objekte ist für nachgelagerte Anwendungen äußerst interessant, bleibt jedoch eine Herausforderung, insbesondere bei spärlichen Eingabeansichten. Aktuelle Ansätze integrieren semantische oder geometrische Regularisierung, um dieses Problem zu adressieren, leiden jedoch unter erheblichen Qualitätseinbußen in unterbestimmten Bereichen und scheitern bei der Wiederherstellung verdeckter Regionen. Wir argumentieren, dass der Schlüssel zur Lösung dieses Problems in der Ergänzung fehlender Informationen für diese Bereiche liegt. Zu diesem Zweck schlagen wir DP-Recon vor, das Diffusionsprioren in Form von Score Distillation Sampling (SDS) nutzt, um die neuronale Darstellung jedes einzelnen Objekts unter neuen Ansichten zu optimieren. Dies liefert zusätzliche Informationen für die unterbestimmten Bereiche, doch die direkte Einbindung von Diffusionsprioren birgt potenzielle Konflikte zwischen der Rekonstruktion und der generativen Führung. Daher führen wir zusätzlich einen sichtbarkeitsgesteuerten Ansatz ein, um die SDS-Verlustgewichte pro Pixel dynamisch anzupassen. Diese Komponenten verbessern gemeinsam die Wiederherstellung von Geometrie und Erscheinungsbild, während sie den Eingabebildern treu bleiben. Umfangreiche Experimente mit Replica und ScanNet++ zeigen, dass unsere Methode state-of-the-art-Verfahren deutlich übertrifft. Bemerkenswerterweise erreicht sie eine bessere Objektrekonstruktion unter 10 Ansichten als die Vergleichsmethoden unter 100 Ansichten. Unsere Methode ermöglicht nahtlose textbasierte Bearbeitung von Geometrie und Erscheinungsbild durch SDS-Optimierung und erzeugt dekomponierte Objektnetze mit detaillierten UV-Maps, die fotorealistische Visual Effects (VFX)-Bearbeitung unterstützen. Die Projektseite ist unter https://dp-recon.github.io/ verfügbar.
Jüngste Fortschritte bei Large Multi-modal Models (LMMs) konzentrieren sich hauptsächlich auf das Offline-Video-Verständnis. Im Gegensatz dazu stellt das Streaming-Video-Verständnis aufgrund seiner zeitkritischen, omni-modalen und interaktiven Eigenschaften große Herausforderungen für aktuelle Modelle dar. In dieser Arbeit zielen wir darauf ab, das Streaming-Video-Verständnis aus einer neuen Perspektive zu erweitern und schlagen eine neuartige Aufgabe namens Visual Instruction Feedback vor, bei der Modelle visuelle Inhalte wahrnehmen und lernen sollten, Anweisungen daraus zu extrahieren. Zum Beispiel sollten Agenten, wenn Benutzer ihre Hände schwenken, die Geste erkennen und Gespräche mit Begrüßungsinformationen beginnen. Somit verbessert das Befolgen von Anweisungen in der visuellen Modalität die Benutzer-Agenten-Interaktionen erheblich. Um die Forschung zu fördern, definieren wir sieben Schlüsselunteraufgaben, die stark mit der visuellen Modalität zusammenhängen, und sammeln den ViSpeak-Instruct-Datensatz für das Training und das ViSpeak-Bench für die Bewertung. Darüber hinaus schlagen wir das ViSpeak-Modell vor, ein state-of-the-art LMM für das Streaming-Video-Verständnis mit GPT-4o-Level-Leistung auf verschiedenen Streaming-Video-Verständnis-Benchmarks. Nach dem Feinabstimmen auf unserem ViSpeak-Instruct-Datensatz ist ViSpeak mit grundlegenden Fähigkeiten zur visuellen Anweisungsrückmeldung ausgestattet und dient als solide Basis für zukünftige Forschungen.
Die automatisierte Merkmalserstellung spielt eine entscheidende Rolle bei der Verbesserung der Vorhersageleistung von Modellen für tabellarische Lernaufgaben. Traditionelle Methoden der automatisierten Merkmalserstellung sind durch ihre Abhängigkeit von vordefinierten Transformationen innerhalb festgelegter, manuell gestalteter Suchräume eingeschränkt und vernachlässigen oft domänenspezifisches Wissen. Jüngste Fortschritte durch den Einsatz von Large Language Models (LLMs) haben die Integration von domänenspezifischem Wissen in den Prozess der Merkmalserstellung ermöglicht. Allerdings nutzen bestehende LLM-basierte Ansätze entweder direkte Prompting-Techniken oder verlassen sich ausschließlich auf Validierungswerte für die Merkmalsauswahl, ohne Erkenntnisse aus früheren Merkmalserkennungsexperimenten zu nutzen oder eine sinnvolle Verbindung zwischen Merkmalsgenerierung und datengetriebener Leistung herzustellen. Um diese Herausforderungen zu bewältigen, schlagen wir LLM-FE vor, ein neuartiges Framework, das evolutionäre Suche mit dem domänenspezifischen Wissen und den Schlussfolgerungsfähigkeiten von LLMs kombiniert, um effektive Merkmale für tabellarische Lernaufgaben automatisch zu entdecken. LLM-FE formuliert die Merkmalserstellung als ein Programmsuchproblem, bei dem LLMs iterativ neue Merkmalstransformationsprogramme vorschlagen und datengetriebenes Feedback den Suchprozess leitet. Unsere Ergebnisse zeigen, dass LLM-FE durchweg state-of-the-art Baselines übertrifft und die Leistung von Vorhersagemodellen für tabellarische Daten über verschiedene Klassifikations- und Regressionsbenchmarks hinweg signifikant verbessert.
Die audio-gesteuerte Erzeugung von sprechenden Porträts aus Einzelbildern spielt eine entscheidende Rolle in den Bereichen Virtual Reality, digitaler Mensch-Erstellung und Filmproduktion. Bestehende Ansätze werden allgemein in keypoint-basierte und bildbasierte Methoden kategorisiert. Keypoint-basierte Methoden bewahren effektiv die Charakteridentität, haben jedoch Schwierigkeiten, feine Gesichtsdetails zu erfassen, aufgrund der begrenzten Punkte des 3D-Morphable-Modells. Darüber hinaus stehen traditionelle generative Netzwerke vor der Herausforderung, Kausalität zwischen Audio und Keypoints auf begrenzten Datensätzen herzustellen, was zu geringer Posendiversität führt. Im Gegensatz dazu erzeugen bildbasierte Ansätze hochwertige Porträts mit vielfältigen Details mithilfe von Diffusionsnetzwerken, leiden jedoch unter Identitätsverzerrungen und hohen Rechenkosten. In dieser Arbeit präsentieren wir KDTalker, das erste Framework, das unüberwachte implizite 3D-Keypoints mit einem spatio-temporalen Diffusionsmodell kombiniert. Durch die Nutzung von unüberwachten impliziten 3D-Keypoints passt KDTalker die Dichte der Gesichtsinformationen an, wodurch der Diffusionsprozess in der Lage ist, diverse Kopfposen zu modellieren und feine Gesichtsdetails flexibel zu erfassen. Der speziell entwickelte spatio-temporale Aufmerksamkeitsmechanismus gewährleistet eine präzise Lippensynchronisation und erzeugt zeitlich konsistente, hochwertige Animationen bei gleichzeitiger Steigerung der Recheneffizienz. Experimentelle Ergebnisse zeigen, dass KDTalker in Bezug auf Lippensynchronisationsgenauigkeit, Kopfposendiversität und Ausführungseffizienz state-of-the-art Leistungen erzielt. Unsere Codes sind verfügbar unter https://github.com/chaolongy/KDTalker.
Wir stellen ELTEX (Efficient LLM Token Extraction) vor, ein domänengetriebenes Framework zur Generierung hochwertiger synthetischer Trainingsdaten in spezialisierten Domänen. Während Large Language Models (LLMs) beeindruckende allgemeine Fähigkeiten gezeigt haben, bleibt ihre Leistung in spezialisierten Domänen wie der Cybersicherheit durch den Mangel an domänenspezifischen Trainingsdaten begrenzt. ELTEX adressiert diese Herausforderung, indem es die explizite Extraktion von Domänenindikatoren systematisch mit dynamischem Prompting kombiniert, um kritisches Domänenwissen während des Generierungsprozesses zu bewahren. Wir demonstrieren die Wirksamkeit von ELTEX im Kontext der Erkennung von Blockchain-bezogenen Cyberangriffen, bei dem wir Gemma-2B mit verschiedenen Kombinationen aus realen und ELTEX-generierten Daten feinabstimmen. Unsere Ergebnisse zeigen, dass das ELTEX-verbesserte Modell eine mit GPT-4 vergleichbare Leistung sowohl bei standardmäßigen Klassifikationsmetriken als auch bei der Unsicherheitskalibrierung erzielt, während es deutlich weniger Rechenressourcen benötigt. Wir veröffentlichen einen kuratierten synthetischen Datensatz von Social-Media-Texten zur Erkennung von Cyberangriffen in der Blockchain. Unsere Arbeit zeigt, dass domänengetriebene synthetische Datengenerierung die Leistungslücke zwischen ressourceneffizienten Modellen und größeren Architekturen in spezialisierten Domänen effektiv schließen kann.
Jüngste Fortschritte bei Large Language Models (LLMs) haben verbesserte Fähigkeiten im logischen Denken gezeigt, die sich von Chain-of-Thought (CoT)-Prompting hin zu fortschrittlichen, produktorientierten Lösungen wie OpenAI o1 entwickelt haben. Während unserer Neuimplementierung dieses Modells stellten wir fest, dass Multimodale LLMs (MLLMs) bei Aufgaben, die visuelle Eingaben erfordern (z. B. Geometrieprobleme), Schwierigkeiten haben, den Fokus auf die visuellen Informationen aufrechtzuerhalten. Mit anderen Worten, MLLMs leiden unter einem allmählichen Nachlassen der Aufmerksamkeit für visuelle Informationen, während der Denkprozess fortschreitet, was zu textlastigen Ausgaben führt. Um dies zu untersuchen, entfernen wir Bild-Eingaben während langkettiger Denkprozesse. Konkret unterbrechen wir den Denkprozess in der Mitte und vollenden ihn dann erneut, wobei das Eingabebild entfernt wird. Wir beobachten nur einen Genauigkeitsverlust von ~2 % auf der Test-Hard-Teilmenge von MathVista, was zeigt, dass die textuellen Ausgaben des Modells den weiteren Denkprozess dominieren. Motiviert durch diese Erkenntnis schlagen wir Take-along Visual Conditioning (TVC) vor, eine Strategie, die die Bild-Eingabe auf kritische Denkphasen verschiebt und redundante visuelle Tokens durch dynamisches Pruning komprimiert. Diese Methodik hilft dem Modell, die Aufmerksamkeit auf die visuellen Komponenten während des gesamten Denkprozesses aufrechtzuerhalten. Unser Ansatz erreicht durchschnittlich state-of-the-art Leistung über fünf mathematische Denk-Benchmarks (+3,4 % im Vergleich zum vorherigen Sota) und demonstriert die Wirksamkeit von TVC bei der Verbesserung multimodaler Denksysteme.
Wissenschaftliches Problemlösen beinhaltet die Synthese von Informationen unter Anwendung von Expertenwissen. Wir stellen CURIE vor, einen Benchmark für wissenschaftliches Langkontext-Verständnis, logisches Denken und Informationsextraktion, um das Potenzial von Large Language Models (LLMs) im wissenschaftlichen Problemlösen und bei der Unterstützung von Wissenschaftlern in realistischen Arbeitsabläufen zu messen. Dieser Benchmark umfasst zehn anspruchsvolle Aufgaben mit insgesamt 580 Problem- und Lösungspaaren, die von Experten aus sechs Disziplinen – Materialwissenschaft, Festkörperphysik, Quantencomputing, Geospatialanalyse, Biodiversität und Proteine – erstellt wurden und sowohl experimentelle als auch theoretische Arbeitsabläufe in der Wissenschaft abdecken. Wir bewerten eine Reihe von geschlossenen und offenen LLMs anhand von Aufgaben in CURIE, die Fachwissen, das Verständnis von langen Kontextinformationen und mehrstufiges logisches Denken erfordern. Während Gemini Flash 2.0 und Claude-3 durchgängig hohes Verständnis über verschiedene Domänen hinweg zeigen, scheitern die beliebten Modelle GPT-4o und Command-R+ dramatisch bei Aufgaben zur Proteinsequenzierung. Mit der besten Leistung bei 32 % gibt es für alle Modelle noch viel Raum für Verbesserungen. Wir hoffen, dass die Erkenntnisse aus CURIE die zukünftige Entwicklung von LLMs in den Wissenschaften leiten können. Evaluierungscode und Daten sind unter https://github.com/google/curie verfügbar.
In komplexen Multi-Agenten-Umgebungen stellt das Erreichen effizienten Lernens und wünschenswerter Verhaltensweisen eine erhebliche Herausforderung für Multi-Agent Reinforcement Learning (MARL)-Systeme dar. Diese Arbeit untersucht das Potenzial der Kombination von MARL mit Interventionen, die durch Large Language Models (LLMs) vermittelt werden, um Agenten zu besseren Verhaltensweisen zu führen. Insbesondere erforschen wir, wie LLMs genutzt werden können, um Interventionen zu interpretieren und zu erleichtern, die die Lernpfade mehrerer Agenten beeinflussen. Wir experimentierten mit zwei Arten von Interventionen, die als Controller bezeichnet werden: einem Natural Language (NL)-Controller und einem Rule-Based (RB)-Controller. Der NL-Controller, der ein LLM zur Simulation menschlicher Interventionen verwendet, zeigte eine stärkere Wirkung als der RB-Controller. Unsere Ergebnisse deuten darauf hin, dass Agenten insbesondere von frühen Interventionen profitieren, was zu effizienterem Training und höherer Leistung führt. Beide Interventionstypen übertreffen die Baseline ohne Interventionen, was das Potenzial von LLM-vermittelter Anleitung zur Beschleunigung des Trainings und zur Steigerung der MARL-Leistung in anspruchsvollen Umgebungen unterstreicht.