Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen MVDream vor, ein Multi-View-Diffusionsmodell, das in der Lage ist, geometrisch konsistente Multi-View-Bilder aus einem gegebenen Textprompt zu generieren. Durch die Nutzung von Bilddiffusionsmodellen, die auf groß angelegten Webdatensätzen vortrainiert wurden, sowie eines Multi-View-Datensatzes, der aus 3D-Assets gerendert wurde, kann das resultierende Multi-View-Diffusionsmodell sowohl die Generalisierbarkeit von 2D-Diffusion als auch die Konsistenz von 3D-Daten erreichen. Ein solches Modell kann somit als Multi-View-Prior für die 3D-Generierung mittels Score Distillation Sampling eingesetzt werden, wo es die Stabilität bestehender 2D-Lifting-Methoden erheblich verbessert, indem es das Problem der 3D-Konsistenz löst. Schließlich zeigen wir, dass das Multi-View-Diffusionsmodell auch im Few-Shot-Setting für die personalisierte 3D-Generierung feinabgestimmt werden kann, d.h. für die DreamBooth3D-Anwendung, wobei die Konsistenz nach dem Erlernen der Subjektidentität erhalten bleibt.
Transformer-ähnliche Modelle für Vision-Aufgaben haben sich kürzlich als effektiv für eine Vielzahl von nachgelagerten Anwendungen wie Segmentierung und Detektion erwiesen. Frühere Arbeiten haben gezeigt, dass Segmentierungseigenschaften in Vision-Transformern (ViTs) auftreten, die mit selbstüberwachten Methoden wie DINO trainiert wurden, jedoch nicht in solchen, die auf überwachte Klassifikationsaufgaben trainiert wurden. In dieser Studie untersuchen wir, ob Segmentierung in transformer-basierten Modellen ausschließlich als Ergebnis komplexer selbstüberwachter Lernmechanismen entsteht oder ob dieselbe Entstehung unter viel breiteren Bedingungen durch eine geeignete Gestaltung der Modellarchitektur erreicht werden kann. Durch umfangreiche experimentelle Ergebnisse zeigen wir, dass bei Verwendung einer White-Box-Transformer-Architektur namens CRATE, deren Design explizit niedrigdimensionale Strukturen in der Datenverteilung modelliert und verfolgt, Segmentierungseigenschaften sowohl auf Gesamt- als auch auf Teilebene bereits mit einem minimalistischen überwachten Trainingsansatz entstehen. Eine schichtweise feinkörnigere Analyse zeigt, dass die emergenten Eigenschaften die entworfenen mathematischen Funktionen des White-Box-Netzwerks stark bestätigen. Unsere Ergebnisse deuten auf einen Weg hin, White-Box-Foundation-Modelle zu entwerfen, die gleichzeitig hochleistungsfähig und mathematisch vollständig interpretierbar sind. Der Code ist unter https://github.com/Ma-Lab-Berkeley/CRATE verfügbar.
Stable Diffusion, ein generatives Modell, das in der Text-zu-Bild-Synthese eingesetzt wird, stößt häufig auf kompositionsbedingte Probleme, die durch die Auflösung verursacht werden, wenn Bilder in verschiedenen Größen generiert werden. Dieses Problem rührt hauptsächlich daher, dass das Modell auf Paare von Ein-Skalen-Bildern und ihren entsprechenden Textbeschreibungen trainiert wurde. Darüber hinaus ist ein direktes Training auf Bildern unbegrenzter Größe nicht praktikabel, da dies eine immense Anzahl von Text-Bild-Paaren erfordern und erhebliche Rechenkosten verursachen würde. Um diese Herausforderungen zu bewältigen, schlagen wir eine zweistufige Pipeline namens Any-Size-Diffusion (ASD) vor, die darauf abzielt, gut komponierte Bilder in beliebiger Größe effizient zu generieren und dabei den Bedarf an GPU-Ressourcen mit hohem Speicherbedarf zu minimieren. Konkret nutzt die erste Stufe, Any Ratio Adaptability Diffusion (ARAD), eine ausgewählte Gruppe von Bildern mit einem begrenzten Verhältnisbereich, um das textkonditionale Diffusionsmodell zu optimieren und somit dessen Fähigkeit zu verbessern, die Komposition an verschiedene Bildgrößen anzupassen. Um die Erstellung von Bildern in jeder gewünschten Größe zu unterstützen, führen wir in der nachfolgenden Stufe eine Technik namens Fast Seamless Tiled Diffusion (FSTD) ein. Diese Methode ermöglicht die schnelle Vergrößerung der ASD-Ausgabe auf jede hochauflösende Größe, ohne Nahtartefakte oder Speicherüberlastungen zu verursachen. Experimentelle Ergebnisse auf den Benchmarks LAION-COCO und MM-CelebA-HQ zeigen, dass ASD gut strukturierte Bilder in beliebiger Größe erzeugen kann und dabei die Inferenzzeit im Vergleich zum traditionellen Kachelalgorithmus um das 2-fache reduziert.
Vortrainierte Sprachmodelle wie ChatGPT haben die Codegenerierung erheblich verbessert. Mit zunehmender Skalierung dieser Modelle besteht ein wachsender Bedarf, dass die Ausgabe komplexere Aufgaben bewältigen kann. Darüber hinaus stellt die Generierung funktionaler Programme in der Bioinformatik zusätzliche bemerkenswerte Herausforderungen dar, bedingt durch den Umfang des Domänenwissens, die Notwendigkeit komplizierter Datenoperationen und die komplexen funktionalen Abhängigkeiten zwischen diesen Operationen. Hier präsentieren wir BioCoder, einen Benchmark, der entwickelt wurde, um bestehende vortrainierte Modelle bei der Generierung von Bioinformatik-Code zu bewerten. Im Zusammenhang mit der Funktionscode-Generierung deckt BioCoder potenzielle Paketabhängigkeiten, Klassendeklarationen und globale Variablen ab. Es integriert 1026 Funktionen und 1243 Methoden in Python und Java von GitHub sowie 253 Beispiele aus dem Rosalind-Projekt. BioCoder beinhaltet ein Fuzz-Testing-Framework zur Bewertung, und wir haben es verwendet, um viele Modelle zu evaluieren, darunter InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ und ChatGPT. Unsere detaillierte Analyse dieser Modelle unterstreicht die Bedeutung von Domänenwissen, pragmatischer Codegenerierung und kontextuellem Verständnis. Unser Datensatz, Benchmark, Docker-Images und die für das Testen erforderlichen Skripte sind alle unter https://github.com/gersteinlab/biocoder verfügbar.
Wenn menschliche Programmierer eine Programmiersprache beherrschen, fällt es ihnen leichter, eine neue Programmiersprache zu erlernen. In diesem Bericht konzentrieren wir uns darauf, zu untersuchen, ob Programmiersprachen sich während der Instruktions-Fine-Tuning-Phase von Code-Großsprachmodellen gegenseitig fördern können. Wir führen umfangreiche Experimente mit 8 beliebten Programmiersprachen (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) auf StarCoder durch. Die Ergebnisse zeigen, dass Programmiersprachen sich signifikant gegenseitig verbessern können. Beispielsweise kann CodeM-Python 15B, das auf Python trainiert wurde, Java um einen absoluten Wert von 17,95 % pass@1 auf HumanEval-X steigern. Noch überraschender ist, dass wir festgestellt haben, dass CodeM-HTML 7B, das auf dem HTML-Korpus trainiert wurde, Java um einen absoluten Wert von 15,24 % pass@1 verbessern kann. Unsere Trainingsdaten sind unter https://github.com/NL2Code/CodeM veröffentlicht.
Wir behandeln das Problem des aktiven Mappings mit einer kontinuierlich erlernten neuronalen Szenendarstellung, genannt Active Neural Mapping. Der Schlüssel liegt darin, den zu erkundenden Zielraum aktiv zu finden und dabei effiziente Bewegungen des Agenten zu ermöglichen, um die Unsicherheit der Karte in Echtzeit in einer zuvor unbekannten Umgebung zu minimieren. In dieser Arbeit untersuchen wir den Gewichtsraum des kontinuierlich erlernten neuronalen Feldes und zeigen empirisch, dass die neuronale Variabilität, also die Vorhersagerobustheit gegenüber zufälligen Gewichtsstörungen, direkt zur Messung der momentanen Unsicherheit der neuronalen Karte genutzt werden kann. Zusammen mit den kontinuierlichen geometrischen Informationen, die in der neuronalen Karte enthalten sind, kann der Agent dazu geleitet werden, einen begehbaren Pfad zu finden, um schrittweise Wissen über die Umgebung zu erlangen. Wir präsentieren erstmals ein aktives Mapping-System mit einer koordinatenbasierten impliziten neuronalen Darstellung für die Online-Szenenrekonstruktion. Experimente in den visuell realistischen Umgebungen Gibson und Matterport3D demonstrieren die Wirksamkeit der vorgeschlagenen Methode.
Es ist ein langjähriges Problem in der Robotik, Agenten zu entwickeln, die in der Lage sind, vielfältige Manipulationsaufgaben aus visuellen Beobachtungen in unstrukturierten realen Umgebungen auszuführen. Um dieses Ziel zu erreichen, benötigt der Roboter ein umfassendes Verständnis der 3D-Struktur und Semantik der Szene. In dieser Arbeit präsentieren wir GNFactor, einen visuellen Behavior-Cloning-Agenten für multitask-roboterbasierte Manipulation mit Generalisierbaren Neuronalen Merkmalfeldern (Generalizable Neural feature Fields). GNFactor optimiert gemeinsam ein generalisierbares neuronales Feld (GNF) als Rekonstruktionsmodul und einen Perceiver Transformer als Entscheidungsmodul, wobei eine gemeinsame tiefe 3D-Voxel-Darstellung genutzt wird. Um Semantik in 3D zu integrieren, verwendet das Rekonstruktionsmodul ein Vision-Language-Foundation-Modell (z. B. Stable Diffusion), um umfangreiche semantische Informationen in das tiefe 3D-Voxel zu destillieren. Wir evaluieren GNFactor an drei realen Robotertasks und führen detaillierte Ablationen an 10 RLBench-Tasks mit einer begrenzten Anzahl von Demonstrationen durch. Wir beobachten eine erhebliche Verbesserung von GNFactor gegenüber aktuellen State-of-the-Art-Methoden bei bekannten und unbekannten Tasks, was die starke Generalisierungsfähigkeit von GNFactor demonstriert. Unsere Projektwebsite ist https://yanjieze.com/GNFactor/.
Wir präsentieren Belebele, einen Multiple-Choice-Datensatz für maschinelles Leseverständnis (MRC), der 122 Sprachvarianten umfasst. Dieser Datensatz erweitert die Sprachabdeckung von Benchmarks für das natürliche Sprachverständnis (NLU) erheblich und ermöglicht die Bewertung von Textmodellen in Hoch-, Mittel- und Niedrigressourcensprachen. Jede Frage basiert auf einem kurzen Textabschnitt aus dem Flores-200-Datensatz und bietet vier Multiple-Choice-Antworten. Die Fragen wurden sorgfältig kuratiert, um zwischen Modellen mit unterschiedlichen Niveaus des allgemeinen Sprachverständnisses zu unterscheiden. Der englische Datensatz allein erweist sich als ausreichend anspruchsvoll, um state-of-the-art Sprachmodelle herauszufordern. Da der Datensatz vollständig parallel ist, ermöglicht er den direkten Vergleich der Modellleistung über alle Sprachen hinweg. Wir verwenden diesen Datensatz, um die Fähigkeiten von mehrsprachigen Masked Language Models (MLMs) und Large Language Models (LLMs) zu evaluieren. Wir präsentieren umfangreiche Ergebnisse und stellen fest, dass trotz erheblichem sprachübergreifendem Transfer in englischzentrierten LLMs, deutlich kleinere MLMs, die auf ausgewogenen mehrsprachigen Daten vortrainiert wurden, immer noch weitaus mehr Sprachen verstehen. Wir beobachten auch, dass eine größere Vokabulargröße und bewusste Vokabularkonstruktion mit einer besseren Leistung bei Niedrigressourcensprachen korrelieren. Insgesamt eröffnet Belebele neue Möglichkeiten zur Bewertung und Analyse der mehrsprachigen Fähigkeiten von NLP-Systemen.
Die menschzentrierte Videointerpolation hat großes Potenzial, die Unterhaltungserlebnisse der Menschen zu verbessern und kommerzielle Anwendungen in der Sportanalysebranche zu finden, z. B. bei der Synthese von Zeitlupenvideos. Obwohl in der Community mehrere Benchmark-Datensätze verfügbar sind, ist keiner davon speziell für menschzentrierte Szenarien konzipiert. Um diese Lücke zu schließen, stellen wir SportsSloMo vor, einen Benchmark, der aus mehr als 130.000 Videoclips und 1 Million Videobildern in hoher Auflösung (≥720p) von Zeitlupensportvideos besteht, die von YouTube gesammelt wurden. Wir trainieren mehrere state-of-the-art Methoden auf unserem Benchmark neu, und die Ergebnisse zeigen eine Abnahme ihrer Genauigkeit im Vergleich zu anderen Datensätzen. Dies unterstreicht die Schwierigkeit unseres Benchmarks und deutet darauf hin, dass er selbst für die leistungsstärksten Methoden erhebliche Herausforderungen darstellt, da menschliche Körper stark verformbar sind und Verdeckungen in Sportvideos häufig vorkommen. Um die Genauigkeit zu verbessern, führen wir zwei Verlustterme ein, die menschzentrierte Prioritäten berücksichtigen, wobei wir zusätzliche Überwachung für die panoptische Segmentierung und die Erkennung menschlicher Schlüsselpunkte hinzufügen. Die Verlustterme sind modellagnostisch und können leicht in beliebige Videointerpolationsansätze integriert werden. Experimentelle Ergebnisse bestätigen die Wirksamkeit unserer vorgeschlagenen Verlustterme, was zu einer konsistenten Leistungssteigerung bei 5 bestehenden Modellen führt, die starke Baseline-Modelle auf unserem Benchmark etablieren. Der Datensatz und der Code sind verfügbar unter: https://neu-vi.github.io/SportsSlomo/.