papers.title

papers.description

PaliGemma: Ein vielseitiger 3B VLM für Transfer
PaliGemma: A versatile 3B VLM for transfer

Jul 10

ByLucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim Neumann, Ibrahim Alabdulmohsin, Michael Tschannen, Emanuele Bugliarello, Thomas Unterthiner, Daniel Keysers, Skanda Koppula, Fangyu Liu, Adam Grycner, Alexey Gritsenko, Neil Houlsby, Manoj Kumar, Keran Rong, Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias Minderer, Paul Voigtlaender, Ioana Bica, Ivana Balazevic, Joan Puigcerver, Pinelopi Papalampidi, Olivier Henaff, Xi Xiong, Radu Soricut, Jeremiah Harmsen, Xiaohua Zhai

PaliGemma ist ein offenes Vision-Language Model (VLM), das auf dem SigLIP-So400m Vision-Encoder und dem Gemma-2B Sprachmodell basiert. Es wurde darauf trainiert, ein vielseitiges und breit informiertes Basismodell zu sein, das effektiv übertragen werden kann. Es erzielt starke Leistungen bei einer Vielzahl von Open-World-Aufgaben. Wir evaluieren PaliGemma an fast 40 verschiedenen Aufgaben, darunter Standard-VLM-Benchmarks, aber auch spezialisiertere Aufgaben wie Fernerkundung und Segmentierung.

Optimierung der Inferenzleistung für große Sprachmodelle auf CPUs
Inference Performance Optimization for Large Language Models on CPUs

Jul 10

ByPujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie

Große Sprachmodelle (LLMs) haben eine außergewöhnliche Leistung und ein enormes Potenzial in verschiedenen Aufgabenbereichen gezeigt. Die Bereitstellung von LLMs mit hoher Leistung in Umgebungen mit begrenzten Ressourcen hat jedoch in der Industrie erhebliche Aufmerksamkeit erregt. Wenn die GPU-Hardwareressourcen begrenzt sind, können alternative Optionen auf CPUs erkundet werden. Um die finanzielle Belastung zu verringern und Einschränkungen durch Hardwareressourcen zu mildern, ist die Optimierung der Inferenzleistung erforderlich. In diesem Artikel stellen wir eine leicht implementierbare Lösung zur Optimierung der Inferenzleistung vor, die darauf abzielt, LLMs auf CPUs zu beschleunigen. In dieser Lösung implementieren wir einen effektiven Weg zur Reduzierung der KV-Cache-Größe unter Beibehaltung der Präzision. Wir schlagen einen verteilten Ansatz zur Inferenzoptimierung vor und setzen ihn auf der oneAPI Collective Communications Library um. Darüber hinaus schlagen wir Optimierungsansätze für LLMs auf der CPU vor und führen maßgeschneiderte Optimierungen für die am häufigsten verwendeten Modelle durch. Der Code ist unter https://github.com/intel/xFasterTransformer als Open Source verfügbar.

LLaVA-NeXT-Interleave: Bewältigung von Multi-Image, Video und 3D in großen multimodalen Modellen
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Jul 10

ByFeng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

Die visuelle Anleitungsoptimierung hat erhebliche Fortschritte bei der Verbesserung der Fähigkeiten großer multimodaler Modelle (LMMs) gemacht. Allerdings konzentrieren sich bestehende offene LMMs hauptsächlich auf Einzelbildaufgaben, während ihre Anwendungen in Multi-Bild-Szenarien noch wenig erforscht sind. Darüber hinaus behandelt die bisherige LMM-Forschung unterschiedliche Szenarien separat, was es unmöglich macht, allgemeine Schlussfolgerungen über Szenarien mit neuen aufkommenden Fähigkeiten zu ziehen. Zu diesem Zweck stellen wir LLaVA-NeXT-Interleave vor, das gleichzeitig Multi-Bild-, Multi-Rahmen- (Video-), Multi-Ansichts- (3D-) und Multi-Patch- (Einzelbild-) Szenarien in LMMs angeht. Um diese Fähigkeiten zu ermöglichen, betrachten wir das interleaved Datenformat als allgemeine Vorlage und erstellen den M4-Instruct-Datensatz mit 1.177,6k Beispielen, der 4 Hauptdomänen mit 14 Aufgaben und 41 Datensätzen abdeckt. Wir kuratieren auch die LLaVA-Interleave-Bench, um die Multi-Bild-Performance von LMMs umfassend zu bewerten. Durch umfangreiche Experimente erzielt LLaVA-NeXT-Interleave führende Ergebnisse in Multi-Bild-, Video- und 3D-Benchmarks, während es die Leistung bei Einzelbildaufgaben beibehält. Darüber hinaus zeigt unser Modell auch mehrere aufkommende Fähigkeiten, z. B. die Übertragung von Aufgaben über verschiedene Einstellungen und Modalitäten hinweg. Der Code ist verfügbar unter https://github.com/LLaVA-VL/LLaVA-NeXT

Video-zu-Audio-Generierung mit versteckter Ausrichtung
Video-to-Audio Generation with Hidden Alignment

Jul 10

ByManjie Xu, Chenxing Li, Yong Ren, Rilin Chen, Yu Gu, Wei Liang, Dong Yu

Die Generierung semantisch und zeitlich abgestimmter Audioinhalte gemäß des Videoinputs hat sich zu einem Schwerpunkt für Forscher entwickelt, insbesondere nach dem bemerkenswerten Durchbruch in der Text-zu-Video-Generierung. In dieser Arbeit zielen wir darauf ab, Einblicke in das Paradigma der Video-zu-Audio-Generierung zu bieten, wobei wir uns auf drei entscheidende Aspekte konzentrieren: Vision-Encoder, Hilfseinbettungen und Datenvergrößerungstechniken. Ausgehend von einem grundlegenden Modell VTA-LDM, das auf einer einfachen, aber überraschend effektiven Intuition aufbaut, untersuchen wir verschiedene Vision-Encoder und Hilfseinbettungen durch Ablationsstudien. Durch die Verwendung eines umfassenden Evaluierungspipelines, die die Generierungsqualität und die Video-Audio-Synchronisationsausrichtung betont, zeigen wir, dass unser Modell modernste Video-zu-Audio-Generierungsfähigkeiten aufweist. Darüber hinaus bieten wir wichtige Einblicke in die Auswirkungen verschiedener Datenvergrößerungsmethoden auf die Verbesserung der Gesamtkapazität des Generierungsrahmens. Wir präsentieren Möglichkeiten, die Herausforderung der Generierung synchronisierter Audioinhalte aus semantischer und zeitlicher Perspektive voranzutreiben. Wir hoffen, dass diese Erkenntnisse als Ausgangspunkt für die Entwicklung realistischerer und genauerer Audio-Visionsgenerierungsmodelle dienen werden.

Die Kontrolle von Raum und Zeit mit Diffusionsmodellen
Controlling Space and Time with Diffusion Models

Jul 10

ByDaniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet

Wir präsentieren 4DiM, ein gestaffeltes Diffusionsmodell für die Synthese neuartiger Ansichten in 4D (NVS), abhängig von einem oder mehreren Bildern einer allgemeinen Szene sowie einer Reihe von Kamerapositionen und Zeitstempeln. Um Herausforderungen aufgrund der begrenzten Verfügbarkeit von 4D-Trainingsdaten zu überwinden, befürworten wir ein gemeinsames Training an 3D (mit Kameraposition), 4D (Position+Zeit) und Videodaten (nur Zeit, keine Position) und schlagen eine neue Architektur vor, die dies ermöglicht. Des Weiteren befürworten wir die Kalibrierung von SfM-Positionierungsdaten unter Verwendung monokularer metrischer Tiefenschätzer für metrische Skalenkamerasteuerung. Zur Modellbewertung führen wir neue Metriken ein, um die aktuellen Bewertungsschemata zu bereichern und deren Schwächen zu überwinden. Wir demonstrieren modernste Ergebnisse sowohl in Bezug auf Treue als auch auf Positionssteuerung im Vergleich zu bestehenden Diffusionsmodellen für 3D-NVS und fügen gleichzeitig die Fähigkeit hinzu, zeitliche Dynamiken zu bewältigen. 4DiM wird auch zur verbesserten Panoramazusammensetzung, zur positionsabhängigen Video-zu-Video-Übersetzung und für mehrere andere Aufgaben verwendet. Für eine Übersicht besuchen Sie https://4d-diffusion.github.io.

VEnhancer: Generative Raum-Zeit-Verbesserung für die Videogenerierung
VEnhancer: Generative Space-Time Enhancement for Video Generation

Jul 10

ByJingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu

Wir präsentieren VEnhancer, ein generatives Raum-Zeit-Verbesserungsframework, das die bestehenden Text-zu-Video-Ergebnisse verbessert, indem es mehr Details im räumlichen Bereich hinzufügt und synthetische detaillierte Bewegungen im zeitlichen Bereich erzeugt. Ausgehend von einem generierten Video von geringer Qualität kann unser Ansatz die räumliche und zeitliche Auflösung gleichzeitig mit beliebigen Upsampling-Raum- und Zeitskalen durch ein vereinheitlichtes Videodiffusionsmodell erhöhen. Darüber hinaus entfernt VEnhancer effektiv generierte räumliche Artefakte und zeitliches Flimmern von generierten Videos. Um dies zu erreichen, trainieren wir basierend auf einem vorab trainierten Videodiffusionsmodell ein Video ControlNet und injizieren es als Bedingung für Videos mit geringer Bildrate und geringer Auflösung in das Diffusionsmodell. Um dieses Video ControlNet effektiv zu trainieren, entwerfen wir Raum-Zeit-Datenaugmentation sowie video-bewusste Bedingungen. Durch die oben genannten Entwürfe erweist sich VEnhancer als stabil während des Trainings und folgt einem eleganten End-to-End-Trainingsansatz. Umfangreiche Experimente zeigen, dass VEnhancer bestehende State-of-the-Art-Methoden zur Video-Superauflösung und Raum-Zeit-Superauflösung in der Verbesserung von KI-generierten Videos übertrifft. Darüber hinaus erreicht mit VEnhancer die bestehende Open-Source-State-of-the-Art-Text-zu-Video-Methode, VideoCrafter-2, den ersten Platz im Video-Generierungs-Benchmark - VBench.

Bewegung ohne Bewegung: Individuelle Videogenerierung ohne individuelle Videodaten
Still-Moving: Customized Video Generation without Customized Video Data

Jul 11

ByHila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri

Die Anpassung von Text-zu-Bild (T2I) Modellen hat in letzter Zeit enorme Fortschritte gemacht, insbesondere in Bereichen wie Personalisierung, Stilisierung und bedingter Generierung. Die Erweiterung dieses Fortschritts auf die Videogenerierung steckt jedoch noch in den Kinderschuhen, hauptsächlich aufgrund des Mangels an angepassten Videodaten. In dieser Arbeit stellen wir Still-Moving vor, ein neuartiges generisches Framework zur Anpassung eines Text-zu-Video (T2V) Modells, ohne dass angepasste Videodaten erforderlich sind. Das Framework gilt für das prominente T2V-Design, bei dem das Videomodell über ein Text-zu-Bild (T2I) Modell aufgebaut wird (z. B. über Inflation). Wir gehen davon aus, dass eine angepasste Version des T2I-Modells vorliegt, das nur auf Standbildern trainiert wurde (z. B. unter Verwendung von DreamBooth oder StyleDrop). Das einfache Einsetzen der Gewichte des angepassten T2I-Modells in das T2V-Modell führt häufig zu erheblichen Artefakten oder unzureichender Einhaltung der Anpassungsdaten. Um dieses Problem zu überwinden, trainieren wir leichte räumliche Adapter, die die von den eingespritzten T2I-Schichten erzeugten Merkmale anpassen. Wichtig ist, dass unsere Adapter auf "eingefrorenen Videos" (d. h. wiederholten Bildern) trainiert werden, die aus Bildbeispielen generiert wurden, die vom angepassten T2I-Modell stammen. Dieses Training wird durch ein neuartiges Motion Adapter-Modul erleichtert, das es uns ermöglicht, auf solchen statischen Videos zu trainieren, während das Bewegungsprior des Videomodells erhalten bleibt. Zur Testzeit entfernen wir die Motion Adapter-Module und lassen nur die trainierten räumlichen Adapter aktiv. Dadurch wird das Bewegungsprior des T2V-Modells wiederhergestellt, während das räumliche Prior des angepassten T2I-Modells eingehalten wird. Wir zeigen die Wirksamkeit unseres Ansatzes bei verschiedenen Aufgaben, einschließlich personalisierter, stilisierter und bedingter Generierung. In allen bewerteten Szenarien integriert unsere Methode nahtlos das räumliche Prior des angepassten T2I-Modells mit einem Bewegungsprior, der vom T2V-Modell bereitgestellt wird.

Teilen Vision- und Sprachmodelle Konzepte? Eine Studie zur Ausrichtung im Vektorraum
Do Vision and Language Models Share Concepts? A Vector Space Alignment Study

Feb 13

ByJiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard

Groß angelegte vortrainierte Sprachmodelle (LMs) sollen angeblich "die Fähigkeit fehlen, Äußerungen mit der Welt zu verbinden" (Bender und Koller, 2020), da sie keine "mentalen Modelle der Welt" haben (Mitchell und Krakauer, 2023). Wenn dem so ist, würde man erwarten, dass LM-Repräsentationen nicht mit den Repräsentationen verbunden sind, die durch Bildmodelle erzeugt werden. Wir präsentieren eine empirische Bewertung über vier Familien von LMs (BERT, GPT-2, OPT und LLaMA-2) und drei Bildmodellarchitekturen (ResNet, SegFormer und MAE). Unsere Experimente zeigen, dass LMs teilweise gegen Repräsentationen konvergieren, die isomorph zu denen von Bildmodellen sind, unter Berücksichtigung von Dispersion, Polysemie und Häufigkeit. Dies hat wichtige Auswirkungen sowohl auf die multimodale Verarbeitung als auch auf die Debatte über das Verständnis von LMs (Mitchell und Krakauer, 2023).

CosmoCLIP: Verallgemeinerung großer Bild-Sprach-Modelle für astronomische Bildgebung
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

Jul 10

ByRaza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray

Bestehende Kontrastive Lernmodelle für Bild-Text-Vision verbessern die Repräsentationsübertragbarkeit und unterstützen die Vorhersage ohne Beispiele, indem sie gepaarte Bild- und Bildunterschriftseinbettungen abgleichen und nicht zusammengehörende Paare auseinanderdrücken. Astronomische Bild-Label-Datensätze sind jedoch im Vergleich zu allgemeinen Bild- und Label-Datensätzen aus dem Internet signifikant kleiner. Wir stellen CosmoCLIP vor, ein astronomisches Bild-Text-Kontrastivlern-Framework, das präzise auf das vortrainierte CLIP-Modell unter Verwendung von SpaceNet und BLIP-basierten Bildunterschriften feinabgestimmt ist. SpaceNet, erreicht über FLARE, besteht aus ~13k optimal verteilten Bildern, während BLIP als reicher Wissensextraktor fungiert. Die reichen Semantiken, die aus diesen SpaceNet- und BLIP-Beschreibungen abgeleitet werden und kontrastiv gelernt werden, ermöglichen es CosmoCLIP, eine überlegene Verallgemeinerung über verschiedene in-domain und out-of-domain Aufgaben zu erreichen. Unsere Ergebnisse zeigen, dass CosmoCLIP ein einfaches, aber leistungsstarkes Framework ist, das CLIP signifikant bei der Klassifizierung ohne Beispiele und bei Bild-Text-Abrufaufgaben übertrifft.

Über das Durchsickern von Codegenerierungsbewertungsdatensätzen
On Leakage of Code Generation Evaluation Datasets

Jul 10

ByAlexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé

In diesem Paper betrachten wir die Kontamination durch Codegenerierungstestsets, insbesondere in ihrer Verwendung in modernen großen Sprachmodellen. Wir diskutieren drei mögliche Quellen einer solchen Kontamination und zeigen Ergebnisse, die jede von ihnen unterstützen: (i) direktes Datenleck, (ii) indirektes Datenleck durch die Verwendung synthetischer Daten und (iii) Überanpassung an Auswertungssätze während der Modellauswahl. Schlüssel zu unseren Ergebnissen ist ein neuer Datensatz von 161 Anregungen mit ihren zugehörigen Python-Lösungen, der unter https://huggingface.co/datasets/CohereForAI/lbpp veröffentlicht wird.

Dies&Das: Sprach-Gesteuerte Videoerzeugung für die Roboterplanung
This&That: Language-Gesture Controlled Video Generation for Robot Planning

Jul 8

ByBoyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park

Wir schlagen eine Roboterlernmethode für die Kommunikation, Planung und Ausführung einer Vielzahl von Aufgaben vor, genannt Dies&Das. Wir erreichen die Roboterplanung für allgemeine Aufgaben, indem wir die Leistung von Video-generativen Modellen nutzen, die auf internetweiten Daten trainiert sind und einen reichen physikalischen und semantischen Kontext enthalten. In dieser Arbeit behandeln wir drei grundlegende Herausforderungen bei der Video-basierten Planung: 1) eindeutige Aufgabenkommunikation mit einfachen menschlichen Anweisungen, 2) steuerbare Videoerzeugung, die die Absichten des Benutzers respektiert, und 3) die Übersetzung visueller Planung in Roboteraktionen. Wir schlagen eine Sprach-Gesten-Konditionierung zur Generierung von Videos vor, die sowohl einfacher als auch klarer ist als bestehende Methoden, insbesondere in komplexen und unsicheren Umgebungen. Anschließend schlagen wir ein Verhaltensklon-Design vor, das die Videopläne nahtlos integriert. Dies&Das zeigt eine Spitzenwirksamkeit bei der Bewältigung der oben genannten drei Herausforderungen und rechtfertigt die Verwendung der Videoerzeugung als Zwischenrepräsentation für generalisierbare Aufgabenplanung und -ausführung. Projekthomepage: https://cfeng16.github.io/this-and-that/.

Eine präzise Erkennung ist nicht alles, was Sie benötigen, um Labelrauschen in web-noise Datensätzen zu bekämpfen.
An accurate detection is not all you need to combat label noise in web-noisy datasets

Jul 8

ByPaul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness

Das Training eines Klassifizierers auf Web-gesammelten Daten erfordert Lernalgorithmen, die robust gegenüber Annotierungsfehlern und irrelevanten Beispielen sind. Dieser Artikel baut auf der kürzlich gemachten empirischen Beobachtung auf, dass die Anwendung unüberwachter kontrastiver Lernverfahren auf rauschigen, aus dem Web gesammelten Datensätzen eine Merkmalsdarstellung liefert, unter der die in-Verteilung (ID) und außerhalb-der-Verteilung (OOD) Proben linear separierbar sind. Wir zeigen, dass die direkte Schätzung der trennenden Hyperebene tatsächlich eine genaue Erkennung von OOD-Proben bieten kann, und dennoch überraschenderweise führt diese Erkennung nicht zu Verbesserungen der Klassifikationsgenauigkeit. Bei genauerer Untersuchung dieses Phänomens entdecken wir, dass die nahezu perfekte Erkennung eine Art sauberer Beispiele verpasst, die für überwachtes Lernen wertvoll sind. Diese Beispiele stellen oft visuell einfache Bilder dar, die relativ einfach als saubere Beispiele identifiziert werden können, indem Standardverlust- oder Distanzbasierte Methoden verwendet werden, obwohl sie durch unüberwachtes Lernen schlecht von der OOD-Verteilung separiert sind. Da wir zudem eine geringe Korrelation mit SOTA-Metriken beobachten, drängt uns dies dazu, einen hybriden Lösungsansatz vorzuschlagen, der zwischen der Rauscherkennung mittels linearer Separation und einem State-of-the-Art (SOTA) Small-Loss-Ansatz abwechselt. In Kombination mit dem SOTA-Algorithmus PLS verbessern wir signifikant die SOTA-Ergebnisse für die Bildklassifizierung in der realen Welt in Gegenwart von Web-Rauschen github.com/PaulAlbert31/LSA.

CrowdMoGen: Generierung kollektiver Bewegungen aus Text ohne vorheriges Training
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

Jul 8

ByXinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu

Die Generierung von Menschenmengenbewegungen ist in Unterhaltungsindustrien wie Animation und Spielen sowie in strategischen Bereichen wie städtischer Simulation und Planung unerlässlich. Diese neue Aufgabe erfordert eine komplexe Integration von Steuerung und Generierung, um realistisch die Dynamik von Menschenmengen unter spezifischen räumlichen und semantischen Einschränkungen zu synthetisieren, deren Herausforderungen noch nicht vollständig erforscht sind. Einerseits konzentrieren sich bestehende Modelle zur Generierung menschlicher Bewegungen in der Regel auf individuelle Verhaltensweisen und vernachlässigen die Komplexitäten kollektiver Verhaltensweisen. Andererseits hängen aktuelle Methoden zur Generierung von Bewegungen mehrerer Personen stark von vordefinierten Szenarien ab und sind auf eine feste, kleine Anzahl von zwischenmenschlichen Interaktionen beschränkt, was ihre Praktikabilität einschränkt. Um diese Herausforderungen zu überwinden, stellen wir CrowdMoGen vor, ein textgesteuertes Framework ohne Trainingsdaten, das die kollektive Intelligenz in das Bewegungsgenerierungsframework als Leitfaden integriert, um eine generalisierbare Planung und Generierung von Menschenmengenbewegungen zu ermöglichen. Unser Framework besteht aus zwei Schlüsselkomponenten: 1) Crowd-Szenenplaner, der lernt, Bewegungen und Dynamiken gemäß spezifischer Szenenkontexte oder eingeführter Störungen zu koordinieren, und 2) Kollektiver Bewegungsgenerator, der effizient die erforderlichen kollektiven Bewegungen basierend auf den ganzheitlichen Plänen synthetisiert. Umfangreiche quantitative und qualitative Experimente haben die Wirksamkeit unseres Frameworks validiert, das nicht nur eine kritische Lücke füllt, indem es skalierbare und generalisierbare Lösungen für die Aufgabe der Generierung von Menschenmengenbewegungen bietet, sondern auch hohe Realitäts- und Flexibilitätsniveaus erreicht.

BiGym: Ein Demo-gesteuerter mobiler Benchmark für bi-manipulative Manipulation
BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark

Jul 10

ByNikita Chernyadev, Nicholas Backshall, Xiao Ma, Yunfan Lu, Younggyo Seo, Stephen James

Wir stellen BiGym vor, einen neuen Benchmark und Lernumgebung für mobile bimanuelle demo-gesteuerte robotische Manipulation. BiGym umfasst 40 verschiedene Aufgaben in häuslichen Umgebungen, von einfachen Zielerreichungen bis hin zur komplexen Küchenreinigung. Um die Leistung in der realen Welt präzise zu erfassen, bieten wir für jede Aufgabe menschlich gesammelte Demonstrationen an, die die vielfältigen Modalitäten widerspiegeln, die in den Trajektorien von Robotern in der realen Welt zu finden sind. BiGym unterstützt eine Vielzahl von Beobachtungen, einschließlich propriozeptiver Daten und visueller Eingaben wie RGB sowie Tiefeninformationen aus 3 Kameraperspektiven. Um die Benutzerfreundlichkeit von BiGym zu validieren, benchmarken wir gründlich die state-of-the-art Imitationslernalgorithmen und demo-gesteuerten Verstärkungslernalgorithmen innerhalb der Umgebung und diskutieren zukünftige Möglichkeiten.

papers.title

papers.description

PaliGemma: Ein vielseitiger 3B VLM für Transfer
PaliGemma: A versatile 3B VLM for transfer

Jul 10

Optimierung der Inferenzleistung für große Sprachmodelle auf CPUs
Inference Performance Optimization for Large Language Models on CPUs

Jul 10

ByPujiang He, Shan Zhou, Wenhuan Huang, Changqing Li, Duyi Wang, Bin Guo, Chen Meng, Sheng Gui, Weifei Yu, Yi Xie

LLaVA-NeXT-Interleave: Bewältigung von Multi-Image, Video und 3D in großen multimodalen Modellen
LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Jul 10

ByFeng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

Video-zu-Audio-Generierung mit versteckter Ausrichtung
Video-to-Audio Generation with Hidden Alignment

Jul 10

ByManjie Xu, Chenxing Li, Yong Ren, Rilin Chen, Yu Gu, Wei Liang, Dong Yu

Die Kontrolle von Raum und Zeit mit Diffusionsmodellen
Controlling Space and Time with Diffusion Models

Jul 10

ByDaniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet

VEnhancer: Generative Raum-Zeit-Verbesserung für die Videogenerierung
VEnhancer: Generative Space-Time Enhancement for Video Generation

Jul 10

ByJingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu

Bewegung ohne Bewegung: Individuelle Videogenerierung ohne individuelle Videodaten
Still-Moving: Customized Video Generation without Customized Video Data

Jul 11

ByHila Chefer, Shiran Zada, Roni Paiss, Ariel Ephrat, Omer Tov, Michael Rubinstein, Lior Wolf, Tali Dekel, Tomer Michaeli, Inbar Mosseri

Teilen Vision- und Sprachmodelle Konzepte? Eine Studie zur Ausrichtung im Vektorraum
Do Vision and Language Models Share Concepts? A Vector Space Alignment Study

Feb 13

ByJiaang Li, Yova Kementchedjhieva, Constanza Fierro, Anders Søgaard

CosmoCLIP: Verallgemeinerung großer Bild-Sprach-Modelle für astronomische Bildgebung
CosmoCLIP: Generalizing Large Vision-Language Models for Astronomical Imaging

Jul 10

ByRaza Imam, Mohammed Talha Alam, Umaima Rahman, Mohsen Guizani, Fakhri Karray

Über das Durchsickern von Codegenerierungsbewertungsdatensätzen
On Leakage of Code Generation Evaluation Datasets

Jul 10

ByAlexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé

Dies&Das: Sprach-Gesteuerte Videoerzeugung für die Roboterplanung
This&That: Language-Gesture Controlled Video Generation for Robot Planning

Jul 8

ByBoyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park

Eine präzise Erkennung ist nicht alles, was Sie benötigen, um Labelrauschen in web-noise Datensätzen zu bekämpfen.
An accurate detection is not all you need to combat label noise in web-noisy datasets

Jul 8

ByPaul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness

CrowdMoGen: Generierung kollektiver Bewegungen aus Text ohne vorheriges Training
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

Jul 8

ByXinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu

BiGym: Ein Demo-gesteuerter mobiler Benchmark für bi-manipulative Manipulation
BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark

Jul 10

ByNikita Chernyadev, Nicholas Backshall, Xiao Ma, Yunfan Lu, Younggyo Seo, Stephen James