Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Fähigkeit für einen langen Kontext ist entscheidend für multimodale Grundlagenmodelle. Wir stellen LongVILA vor, eine Full-Stack-Lösung für Vision-Language-Modelle mit langem Kontext, einschließlich System, Modelltraining und Datensatzentwicklung. Auf der Systemseite stellen wir das erste Multi-Modal Sequence Parallelism (MM-SP)-System vor, das ein Training und Inferenz mit langem Kontext ermöglicht und ein Training mit einer Kontextlänge von 2M auf 256 GPUs ermöglicht. MM-SP ist auch effizient und 2,1- bis 5,7-mal schneller als Ring-Style Sequence Parallelism und 1,1- bis 1,4-mal schneller als Megatron-LM in reinen Texteinstellungen. Darüber hinaus integriert es nahtlos mit Hugging Face Transformers. Für das Modelltraining schlagen wir eine fünfstufige Pipeline vor, bestehend aus Ausrichtung, Vor-Training, Kontexterweiterung und lang-kurz gemeinsam überwachtem Feintuning. In Bezug auf Datensätze konstruieren wir sorgfältig groß angelegte visuelle Sprachvor-Training-Datensätze und lange Videoanweisungsfolge-Datensätze, um unseren mehrstufigen Trainingsprozess zu unterstützen. Die Full-Stack-Lösung erweitert die mögliche Rahmenanzahl von VILA um den Faktor 128 (von 8 auf 1024 Frames) und verbessert die Bewertung für die langen Video-Untertitel von 2,00 auf 3,26 (1,6-fach), erreicht eine Genauigkeit von 99,5% in 1400-Frames-Videos (274k Kontextlänge) wie die Nadel im Heuhaufen. LongVILA-8B zeigt auch eine konsistente Leistungsverbesserung bei langen Videos im VideoMME-Benchmark, wenn die Video-Frames zunehmen.
Open-World 3D-Rekonstruktionsmodelle haben in letzter Zeit erhebliche Aufmerksamkeit erregt. Allerdings erfordern bestehende Methoden aufgrund unzureichender 3D-induktiver Voreingenommenheit in der Regel hohe Trainingskosten und haben Schwierigkeiten, hochwertige 3D-Gitter zu extrahieren. In dieser Arbeit stellen wir MeshFormer vor, ein dünn besetztes Rekonstruktionsmodell, das explizit die 3D-Nativstruktur, Eingabehinweise und Trainingsüberwachung nutzt. Anstelle einer Triplane-Repräsentation speichern wir Merkmale in 3D-dünnen Voxeln und kombinieren Transformer mit 3D-Faltungen, um eine explizite 3D-Struktur und eine projektive Voreingenommenheit zu nutzen. Neben dünn besetzten RGB-Eingaben fordern wir das Netzwerk auf, Eingaben entgegenzunehmen und entsprechende Normalenabbildungen zu erzeugen. Die Eingabe-Normalenabbildungen können durch 2D-Diffusionsmodelle vorhergesagt werden, was wesentlich zur Anleitung und Verfeinerung des Geometrielernens beiträgt. Darüber hinaus lernen wir durch die Kombination von Signed Distance Function (SDF)-Überwachung mit Oberflächenrendering direkt, hochwertige Gitter zu erzeugen, ohne komplexe mehrstufige Trainingsprozesse zu benötigen. Durch die Integration dieser expliziten 3D-Voreingenommenheiten kann MeshFormer effizient trainiert werden und hochwertige texturierte Gitter mit fein abgestuften geometrischen Details liefern. Es kann auch mit 2D-Diffusionsmodellen integriert werden, um schnelle Einzelbild-zu-3D- und Text-zu-3D-Aufgaben zu ermöglichen. Projektseite: https://meshformer3d.github.io
Die robuste und präzise Segmentierung von Szenen ist zu einer Kernfunktionalität in verschiedenen visuellen Erkennungs- und Navigationsaufgaben geworden. Dies hat die jüngste Entwicklung des Segment Anything Model (SAM) inspiriert, einem Grundlagenmodell für die allgemeine Maskensegmentierung. Allerdings ist SAM hauptsächlich für einmodale RGB-Bilder ausgelegt, was seine Anwendbarkeit auf multimodale Daten einschränkt, die mit weit verbreiteten Sensorsuiten wie LiDAR plus RGB, Tiefe plus RGB, Wärme plus RGB usw. erfasst werden. Wir haben MM-SAM entwickelt, eine Erweiterung und Erweiterung von SAM, die die kreuzmodale und multimodale Verarbeitung zur robusten und verbesserten Segmentierung mit verschiedenen Sensorsuiten unterstützt. MM-SAM zeichnet sich durch zwei Schlüsselkonzepte aus, nämlich unüberwachtes kreuzmodales Transferlernen und schwach überwachtes multimodales Fusionieren, was eine label-effiziente und parameter-effiziente Anpassung an verschiedene Sensorsuiten ermöglicht. Es begegnet drei Hauptproblemen: 1) Anpassung an verschiedene nicht-RGB-Sensoren für einmodale Verarbeitung, 2) synergistische Verarbeitung von multimodalen Daten durch Sensorfusion und 3) maskenfreies Training für verschiedene nachgelagerte Aufgaben. Umfangreiche Experimente zeigen, dass MM-SAM durchweg SAM deutlich übertrifft und damit seine Wirksamkeit und Robustheit über verschiedene Sensoren und Datenmodalitäten hinweg demonstriert.
Die Generierung von Text-zu-Video (T2V) hat aufgrund ihrer vielfältigen Anwendungen in der Videoerstellung, -bearbeitung, -verbesserung und -übersetzung etc. erhebliche Aufmerksamkeit erlangt. Die Erzeugung von hochwertigen (HQ) Videos ist jedoch äußerst anspruchsvoll aufgrund der vielfältigen und komplexen Bewegungen, die in der realen Welt existieren. Die meisten bestehenden Arbeiten haben Schwierigkeiten, dieses Problem zu lösen, indem sie große Mengen von HQ-Videos sammeln, die für die Gemeinschaft nicht zugänglich sind. In dieser Arbeit zeigen wir, dass öffentlich verfügbare begrenzte und minderwertige (LQ) Daten ausreichen, um einen HQ-Video-Generator ohne erneute Beschriftung oder Feinabstimmung zu trainieren. Wir zerlegen den gesamten T2V-Generierungsprozess in zwei Schritte: die Generierung eines Bildes, das von einer sehr beschreibenden Beschriftung abhängt, und die Synthese des Videos, die von dem generierten Bild und einer prägnanten Beschriftung der Bewegungsdetails abhängt. Insbesondere präsentieren wir Factorized-Dreamer, ein faktorisiertes raumzeitliches Framework mit mehreren entscheidenden Entwürfen für die T2V-Generierung, darunter ein Adapter zur Kombination von Text- und Bild-Einbettungen, ein pixelbewusstes Cross-Attention-Modul zur Erfassung von pixelgenauen Bildinformationen, ein T5-Textencoder zur besseren Erfassung der Bewegungsbeschreibung und ein PredictNet zur Überwachung optischer Flüsse. Darüber hinaus präsentieren wir einen Rauschplan, der eine Schlüsselrolle bei der Sicherung der Qualität und Stabilität der Videogenerierung spielt. Unser Modell senkt die Anforderungen an detaillierte Beschriftungen und HQ-Videos und kann direkt auf begrenzten LQ-Datensätzen mit rauschhaften und knappen Beschriftungen wie WebVid-10M trainiert werden, wodurch die Kosten für die Sammlung von großen Mengen von HQ-Video-Text-Paaren erheblich reduziert werden. Umfangreiche Experimente in einer Vielzahl von T2V- und Bild-zu-Video-Generierungsaufgaben zeigen die Wirksamkeit unseres vorgeschlagenen Factorized-Dreamer. Unsere Quellcodes sind verfügbar unter https://github.com/yangxy/Factorized-Dreamer/.
Die Chip-Entwicklung stützt sich stark auf die Erzeugung von Booleschen Schaltungen, wie zum Beispiel AND-Inverter-Graphen (AIGs), aus funktionalen Beschreibungen wie Wahrheitstabellen. Während jüngste Fortschritte im Bereich des Deep Learning darauf abzielten, den Schaltungsentwurf zu beschleunigen, konzentrierten sich diese Bemühungen größtenteils auf Aufgaben, die nicht die Synthese betreffen, und traditionelle heuristische Methoden haben sich auf einem Plateau befunden. In diesem Paper stellen wir ShortCircuit vor, eine neuartige auf Transformer basierende Architektur, die die strukturellen Eigenschaften von AIGs nutzt und eine effiziente Raumexploration durchführt. Im Gegensatz zu früheren Ansätzen, die versuchten, die end-to-end Generierung von Logikschaltungen mithilfe von Deep Networks zu realisieren, verwendet ShortCircuit einen zweiphasigen Prozess, der überwachtes Lernen mit Verstärkungslernen kombiniert, um die Verallgemeinerung auf unbekannte Wahrheitstabellen zu verbessern. Wir schlagen auch eine AlphaZero-Variante vor, um den doppelt exponentiell großen Zustandsraum und die Spärlichkeit der Belohnungen zu bewältigen, was die Entdeckung nahezu optimaler Designs ermöglicht. Zur Bewertung der generativen Leistung unseres trainierten Modells extrahieren wir 500 Wahrheitstabellen aus einem Benchmark-Set von 20 realen Schaltungen. ShortCircuit generiert erfolgreich AIGs für 84,6% der 8-Eingabe-Test-Wahrheitstabellen und übertrifft das State-of-the-Art-Logiksynthesewerkzeug ABC um 14,61% in Bezug auf die Schaltunggröße.
Echtzeit-Hochpräzisions-Schätzung des optischen Flusses ist entscheidend für verschiedene Anwendungen in der realen Welt. Während neuere lernbasierte Methoden zur optischen Flussschätzung hohe Genauigkeit erreicht haben, gehen sie oft mit erheblichen Rechenkosten einher. In diesem Artikel schlagen wir eine äußerst effiziente Methode zur optischen Flussschätzung vor, die hohe Genauigkeit mit reduziertem Rechenaufwand in Einklang bringt. Aufbauend auf NeuFlow v1 führen wir neue Komponenten ein, darunter ein deutlich leichtgewichtiger Backbone und ein schnelles Verfeinerungsmodul. Beide Module tragen dazu bei, den Rechenaufwand gering zu halten, während sie nahe an der modernsten Genauigkeit liegen. Im Vergleich zu anderen modernsten Methoden erreicht unser Modell eine 10x-70x Beschleunigung, während es vergleichbare Leistungen sowohl auf synthetischen als auch auf realen Daten beibehält. Es ist in der Lage, mit über 20 FPS auf Bildern mit einer Auflösung von 512x384 auf einem Jetson Orin Nano zu laufen. Der vollständige Trainings- und Evaluierungscode ist verfügbar unter https://github.com/neufieldrobotics/NeuFlow_v2.
Die Open-World 3D-Generierung hat in letzter Zeit erhebliche Aufmerksamkeit erregt. Während viele Einzelbild-zu-3D-Methoden visuell ansprechende Ergebnisse geliefert haben, fehlt es ihnen oft an ausreichender Steuerbarkeit und sie neigen dazu, halluzinierte Regionen zu erzeugen, die möglicherweise nicht den Erwartungen der Benutzer entsprechen. In diesem Artikel untersuchen wir ein wichtiges Szenario, bei dem die Eingabe aus einem oder wenigen ungeordneten 2D-Bildern eines einzelnen Objekts besteht, mit wenig oder keinem Überlapp. Wir schlagen eine neuartige Methode, SpaRP, vor, um ein 3D-texturiertes Mesh zu rekonstruieren und die relativen Kamerapositionen für diese spärlichen Ansichten zu schätzen. SpaRP destilliert Wissen aus 2D-Diffusionsmodellen und feinabgestimmt sie, um implizit die 3D-raumbezogenen Beziehungen zwischen den spärlichen Ansichten abzuleiten. Das Diffusionsmodell wird darauf trainiert, Ersatzdarstellungen für Kamerapositionen und Mehransichtsbilder des Objekts unter bekannten Positionen gemeinsam vorherzusagen, indem alle Informationen aus den Eingabespärlichen Ansichten integriert werden. Diese Vorhersagen werden dann genutzt, um die 3D-Rekonstruktion und die Positionsabschätzung durchzuführen, wobei das rekonstruierte 3D-Modell verwendet werden kann, um die Kamerapositionen der Eingabebilder weiter zu verfeinern. Durch umfangreiche Experimente mit drei Datensätzen zeigen wir, dass unsere Methode nicht nur signifikant besser abschneidet als Basislinienmethoden in Bezug auf die Qualität der 3D-Rekonstruktion und die Genauigkeit der Positionsabschätzung, sondern auch eine hohe Effizienz aufweist. Es dauert nur etwa 20 Sekunden, um ein texturiertes Mesh und Kamerapositionen für die Eingabebilder zu erstellen. Projektseite: https://chaoxu.xyz/sparp.
Die genaue Zuordnung der Autorschaft ist entscheidend, um die Integrität digitaler Inhalte zu wahren, forensische Untersuchungen zu verbessern und die Risiken von Fehlinformationen und Plagiaten zu mindern. Die Bewältigung des dringenden Bedarfs an angemessener Autorschaftszuordnung ist entscheidend, um die Glaubwürdigkeit und Verantwortlichkeit der authentischen Autorschaft aufrechtzuerhalten. Die raschen Fortschritte von Large Language Models (LLMs) haben die Grenzen zwischen menschlicher und maschineller Autorschaft verwischt und stellen traditionelle Methoden vor erhebliche Herausforderungen. Wir präsentieren eine umfassende Literaturübersicht, die die neuesten Forschungen zur Autorschaftszuordnung im Zeitalter von LLMs untersucht. Diese Umfrage erkundet systematisch die Landschaft dieses Feldes, indem sie vier repräsentative Probleme kategorisiert: (1) Autorschaftszuordnung von menschlich verfassten Texten; (2) Erkennung von von LLMs generierten Texten; (3) Autorschaftszuordnung von von LLMs generierten Texten; und (4) Autorschaftszuordnung von gemeinsam von Mensch und LLM verfassten Texten. Wir diskutieren auch die Herausforderungen im Zusammenhang mit der Gewährleistung der Verallgemeinerung und Erklärbarkeit von Autorschaftszuordnungsmethoden. Verallgemeinerung erfordert die Fähigkeit, über verschiedene Domänen hinweg zu generalisieren, während Erklärbarkeit darauf abzielt, transparente und verständliche Einblicke in die Entscheidungen dieser Modelle zu bieten. Durch die Bewertung der Stärken und Grenzen bestehender Methoden und Benchmarks identifizieren wir zentrale offene Probleme und zukünftige Forschungsrichtungen in diesem Bereich. Diese Literaturübersicht dient als Leitfaden für Forscher und Praktiker, die sich für den Stand der Technik in diesem schnelllebigen Bereich interessieren. Zusätzliche Ressourcen und eine kuratierte Liste von Papieren sind verfügbar und werden regelmäßig aktualisiert unter https://llm-authorship.github.io.
Die korrekte Einbettung virtueller Objekte in Bilder von realen Szenen erfordert ein tiefes Verständnis der Beleuchtung, Geometrie und Materialien der Szene sowie des Bildentstehungsprozesses. Während aktuelle groß angelegte Diffusionsmodelle starke generative und Inpainting-Fähigkeiten gezeigt haben, stellen wir fest, dass die aktuellen Modelle die Szene in einem einzelnen Bild nicht ausreichend "verstehen", um konsistente Beleuchtungseffekte (Schatten, helle Reflexionen usw.) zu erzeugen, während sie die Identität und Details des eingefügten Objekts bewahren. Wir schlagen vor, ein personalisiertes großes Diffusionsmodell als Leitfaden für einen physikalisch basierten inversen Rendering-Prozess zu verwenden. Unsere Methode stellt Szenenbeleuchtung und Tone-Mapping-Parameter wieder her, was die fotorealistische Komposition beliebiger virtueller Objekte in Einzelbildern oder Videos von Innen- oder Außenszenen ermöglicht. Unsere physikalisch basierte Pipeline ermöglicht außerdem eine automatische Material- und Tone-Mapping-Verfeinerung.
In dieser Arbeit schlagen wir einen trainingsfreien, auf Trajektorien basierenden steuerbaren T2I-Ansatz namens TraDiffusion vor. Diese neuartige Methode ermöglicht es Benutzern, die Bildgenerierung mühelos über Maus-Trajektorien zu lenken. Um eine präzise Steuerung zu erreichen, entwerfen wir eine Distanzbewusstseins-Energiefunktion, um latente Variablen effektiv zu lenken und sicherzustellen, dass der Fokus der Generierung innerhalb der durch die Trajektorie definierten Bereiche liegt. Die Energiefunktion umfasst eine Steuerfunktion, um die Generierung näher an die spezifizierte Trajektorie heranzuführen, und eine Bewegungsfunktion, um die Aktivität in Bereichen fernab der Trajektorie zu verringern. Durch umfangreiche Experimente und qualitative Bewertungen am COCO-Datensatz zeigen die Ergebnisse, dass TraDiffusion eine einfachere, natürlichere Bildsteuerung ermöglicht. Darüber hinaus demonstriert sie die Fähigkeit, markante Regionen, Merkmale und Beziehungen innerhalb der generierten Bilder zu manipulieren, zusammen mit visuellen Eingaben basierend auf beliebigen oder verbesserten Trajektorien.
Sprachmodell (LM)-Agenten für Cybersicherheit, die in der Lage sind, Schwachstellen autonom zu identifizieren und Exploits auszuführen, haben das Potenzial, realweltliche Auswirkungen zu verursachen. Entscheidungsträger, Modellanbieter und andere Forscher in den KI- und Cybersicherheitsgemeinschaften sind daran interessiert, die Fähigkeiten solcher Agenten zu quantifizieren, um Cyberrisiken zu mindern und Möglichkeiten für Penetrationstests zu untersuchen. Zu diesem Zweck stellen wir Cybench vor, ein Rahmenwerk zur Spezifizierung von Cybersicherheitsaufgaben und zur Bewertung von Agenten in Bezug auf diese Aufgaben. Wir haben 40 professionelle Capture the Flag (CTF)-Aufgaben aus 4 verschiedenen CTF-Wettbewerben ausgewählt, die aktuell, bedeutsam und von unterschiedlichem Schwierigkeitsgrad sind. Jede Aufgabe enthält eine eigene Beschreibung, Startdateien und wird in einer Umgebung initialisiert, in der ein Agent Bash-Befehle ausführen und Ausgaben beobachten kann. Da viele Aufgaben über die Fähigkeiten bestehender LM-Agenten hinausgehen, führen wir Teilaufgaben ein, die eine Aufgabe in Zwischenschritte für eine differenziertere Bewertung aufteilen; wir fügen Teilaufgaben für 17 der 40 Aufgaben hinzu. Zur Bewertung der Agentenfähigkeiten konstruieren wir einen Cybersicherheitsagenten und bewerten 7 Modelle: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat und Llama 3.1 405B Instruct. Ohne Anleitung stellen wir fest, dass Agenten nur die einfachsten vollständigen Aufgaben lösen können, die menschliche Teams bis zu 11 Minuten benötigten, wobei Claude 3.5 Sonnet und GPT-4o die höchsten Erfolgsraten aufweisen. Schließlich liefern Teilaufgaben mehr Signale zur Messung der Leistung im Vergleich zu ungesteuerten Durchläufen, wobei Modelle eine um 3,2\% höhere Erfolgsrate bei vollständigen Aufgaben mit Teilaufgaben-Anleitung erzielen als ohne Teilaufgaben-Anleitung. Der gesamte Code und die Daten sind öffentlich unter https://cybench.github.io verfügbar.