Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
PaliGemma ist ein offenes Vision-Language Model (VLM), das auf dem SigLIP-So400m Vision-Encoder und dem Gemma-2B Sprachmodell basiert. Es wurde darauf trainiert, ein vielseitiges und breit informiertes Basismodell zu sein, das effektiv übertragen werden kann. Es erzielt starke Leistungen bei einer Vielzahl von Open-World-Aufgaben. Wir evaluieren PaliGemma an fast 40 verschiedenen Aufgaben, darunter Standard-VLM-Benchmarks, aber auch spezialisiertere Aufgaben wie Fernerkundung und Segmentierung.
Große Sprachmodelle (LLMs) haben eine außergewöhnliche Leistung und ein enormes Potenzial in verschiedenen Aufgabenbereichen gezeigt. Die Bereitstellung von LLMs mit hoher Leistung in Umgebungen mit begrenzten Ressourcen hat jedoch in der Industrie erhebliche Aufmerksamkeit erregt. Wenn die GPU-Hardwareressourcen begrenzt sind, können alternative Optionen auf CPUs erkundet werden. Um die finanzielle Belastung zu verringern und Einschränkungen durch Hardwareressourcen zu mildern, ist die Optimierung der Inferenzleistung erforderlich. In diesem Artikel stellen wir eine leicht implementierbare Lösung zur Optimierung der Inferenzleistung vor, die darauf abzielt, LLMs auf CPUs zu beschleunigen. In dieser Lösung implementieren wir einen effektiven Weg zur Reduzierung der KV-Cache-Größe unter Beibehaltung der Präzision. Wir schlagen einen verteilten Ansatz zur Inferenzoptimierung vor und setzen ihn auf der oneAPI Collective Communications Library um. Darüber hinaus schlagen wir Optimierungsansätze für LLMs auf der CPU vor und führen maßgeschneiderte Optimierungen für die am häufigsten verwendeten Modelle durch. Der Code ist unter https://github.com/intel/xFasterTransformer als Open Source verfügbar.
Die visuelle Anleitungsoptimierung hat erhebliche Fortschritte bei der Verbesserung der Fähigkeiten großer multimodaler Modelle (LMMs) gemacht. Allerdings konzentrieren sich bestehende offene LMMs hauptsächlich auf Einzelbildaufgaben, während ihre Anwendungen in Multi-Bild-Szenarien noch wenig erforscht sind. Darüber hinaus behandelt die bisherige LMM-Forschung unterschiedliche Szenarien separat, was es unmöglich macht, allgemeine Schlussfolgerungen über Szenarien mit neuen aufkommenden Fähigkeiten zu ziehen. Zu diesem Zweck stellen wir LLaVA-NeXT-Interleave vor, das gleichzeitig Multi-Bild-, Multi-Rahmen- (Video-), Multi-Ansichts- (3D-) und Multi-Patch- (Einzelbild-) Szenarien in LMMs angeht. Um diese Fähigkeiten zu ermöglichen, betrachten wir das interleaved Datenformat als allgemeine Vorlage und erstellen den M4-Instruct-Datensatz mit 1.177,6k Beispielen, der 4 Hauptdomänen mit 14 Aufgaben und 41 Datensätzen abdeckt. Wir kuratieren auch die LLaVA-Interleave-Bench, um die Multi-Bild-Performance von LMMs umfassend zu bewerten. Durch umfangreiche Experimente erzielt LLaVA-NeXT-Interleave führende Ergebnisse in Multi-Bild-, Video- und 3D-Benchmarks, während es die Leistung bei Einzelbildaufgaben beibehält. Darüber hinaus zeigt unser Modell auch mehrere aufkommende Fähigkeiten, z. B. die Übertragung von Aufgaben über verschiedene Einstellungen und Modalitäten hinweg. Der Code ist verfügbar unter https://github.com/LLaVA-VL/LLaVA-NeXT
Wir präsentieren 4DiM, ein gestaffeltes Diffusionsmodell für die Synthese neuartiger Ansichten in 4D (NVS), abhängig von einem oder mehreren Bildern einer allgemeinen Szene sowie einer Reihe von Kamerapositionen und Zeitstempeln. Um Herausforderungen aufgrund der begrenzten Verfügbarkeit von 4D-Trainingsdaten zu überwinden, befürworten wir ein gemeinsames Training an 3D (mit Kameraposition), 4D (Position+Zeit) und Videodaten (nur Zeit, keine Position) und schlagen eine neue Architektur vor, die dies ermöglicht. Des Weiteren befürworten wir die Kalibrierung von SfM-Positionierungsdaten unter Verwendung monokularer metrischer Tiefenschätzer für metrische Skalenkamerasteuerung. Zur Modellbewertung führen wir neue Metriken ein, um die aktuellen Bewertungsschemata zu bereichern und deren Schwächen zu überwinden. Wir demonstrieren modernste Ergebnisse sowohl in Bezug auf Treue als auch auf Positionssteuerung im Vergleich zu bestehenden Diffusionsmodellen für 3D-NVS und fügen gleichzeitig die Fähigkeit hinzu, zeitliche Dynamiken zu bewältigen. 4DiM wird auch zur verbesserten Panoramazusammensetzung, zur positionsabhängigen Video-zu-Video-Übersetzung und für mehrere andere Aufgaben verwendet. Für eine Übersicht besuchen Sie https://4d-diffusion.github.io.
Die Generierung semantisch und zeitlich abgestimmter Audioinhalte gemäß des Videoinputs hat sich zu einem Schwerpunkt für Forscher entwickelt, insbesondere nach dem bemerkenswerten Durchbruch in der Text-zu-Video-Generierung. In dieser Arbeit zielen wir darauf ab, Einblicke in das Paradigma der Video-zu-Audio-Generierung zu bieten, wobei wir uns auf drei entscheidende Aspekte konzentrieren: Vision-Encoder, Hilfseinbettungen und Datenvergrößerungstechniken. Ausgehend von einem grundlegenden Modell VTA-LDM, das auf einer einfachen, aber überraschend effektiven Intuition aufbaut, untersuchen wir verschiedene Vision-Encoder und Hilfseinbettungen durch Ablationsstudien. Durch die Verwendung eines umfassenden Evaluierungspipelines, die die Generierungsqualität und die Video-Audio-Synchronisationsausrichtung betont, zeigen wir, dass unser Modell modernste Video-zu-Audio-Generierungsfähigkeiten aufweist. Darüber hinaus bieten wir wichtige Einblicke in die Auswirkungen verschiedener Datenvergrößerungsmethoden auf die Verbesserung der Gesamtkapazität des Generierungsrahmens. Wir präsentieren Möglichkeiten, die Herausforderung der Generierung synchronisierter Audioinhalte aus semantischer und zeitlicher Perspektive voranzutreiben. Wir hoffen, dass diese Erkenntnisse als Ausgangspunkt für die Entwicklung realistischerer und genauerer Audio-Visionsgenerierungsmodelle dienen werden.
Wir präsentieren VEnhancer, ein generatives Raum-Zeit-Verbesserungsframework, das die bestehenden Text-zu-Video-Ergebnisse verbessert, indem es mehr Details im räumlichen Bereich hinzufügt und synthetische detaillierte Bewegungen im zeitlichen Bereich erzeugt. Ausgehend von einem generierten Video von geringer Qualität kann unser Ansatz die räumliche und zeitliche Auflösung gleichzeitig mit beliebigen Upsampling-Raum- und Zeitskalen durch ein vereinheitlichtes Videodiffusionsmodell erhöhen. Darüber hinaus entfernt VEnhancer effektiv generierte räumliche Artefakte und zeitliches Flimmern von generierten Videos. Um dies zu erreichen, trainieren wir basierend auf einem vorab trainierten Videodiffusionsmodell ein Video ControlNet und injizieren es als Bedingung für Videos mit geringer Bildrate und geringer Auflösung in das Diffusionsmodell. Um dieses Video ControlNet effektiv zu trainieren, entwerfen wir Raum-Zeit-Datenaugmentation sowie video-bewusste Bedingungen. Durch die oben genannten Entwürfe erweist sich VEnhancer als stabil während des Trainings und folgt einem eleganten End-to-End-Trainingsansatz. Umfangreiche Experimente zeigen, dass VEnhancer bestehende State-of-the-Art-Methoden zur Video-Superauflösung und Raum-Zeit-Superauflösung in der Verbesserung von KI-generierten Videos übertrifft. Darüber hinaus erreicht mit VEnhancer die bestehende Open-Source-State-of-the-Art-Text-zu-Video-Methode, VideoCrafter-2, den ersten Platz im Video-Generierungs-Benchmark - VBench.
Die Anpassung von Text-zu-Bild (T2I) Modellen hat in letzter Zeit enorme Fortschritte gemacht, insbesondere in Bereichen wie Personalisierung, Stilisierung und bedingter Generierung. Die Erweiterung dieses Fortschritts auf die Videogenerierung steckt jedoch noch in den Kinderschuhen, hauptsächlich aufgrund des Mangels an angepassten Videodaten. In dieser Arbeit stellen wir Still-Moving vor, ein neuartiges generisches Framework zur Anpassung eines Text-zu-Video (T2V) Modells, ohne dass angepasste Videodaten erforderlich sind. Das Framework gilt für das prominente T2V-Design, bei dem das Videomodell über ein Text-zu-Bild (T2I) Modell aufgebaut wird (z. B. über Inflation). Wir gehen davon aus, dass eine angepasste Version des T2I-Modells vorliegt, das nur auf Standbildern trainiert wurde (z. B. unter Verwendung von DreamBooth oder StyleDrop). Das einfache Einsetzen der Gewichte des angepassten T2I-Modells in das T2V-Modell führt häufig zu erheblichen Artefakten oder unzureichender Einhaltung der Anpassungsdaten. Um dieses Problem zu überwinden, trainieren wir leichte räumliche Adapter, die die von den eingespritzten T2I-Schichten erzeugten Merkmale anpassen. Wichtig ist, dass unsere Adapter auf "eingefrorenen Videos" (d. h. wiederholten Bildern) trainiert werden, die aus Bildbeispielen generiert wurden, die vom angepassten T2I-Modell stammen. Dieses Training wird durch ein neuartiges Motion Adapter-Modul erleichtert, das es uns ermöglicht, auf solchen statischen Videos zu trainieren, während das Bewegungsprior des Videomodells erhalten bleibt. Zur Testzeit entfernen wir die Motion Adapter-Module und lassen nur die trainierten räumlichen Adapter aktiv. Dadurch wird das Bewegungsprior des T2V-Modells wiederhergestellt, während das räumliche Prior des angepassten T2I-Modells eingehalten wird. Wir zeigen die Wirksamkeit unseres Ansatzes bei verschiedenen Aufgaben, einschließlich personalisierter, stilisierter und bedingter Generierung. In allen bewerteten Szenarien integriert unsere Methode nahtlos das räumliche Prior des angepassten T2I-Modells mit einem Bewegungsprior, der vom T2V-Modell bereitgestellt wird.
Groß angelegte vortrainierte Sprachmodelle (LMs) sollen angeblich "die Fähigkeit fehlen, Äußerungen mit der Welt zu verbinden" (Bender und Koller, 2020), da sie keine "mentalen Modelle der Welt" haben (Mitchell und Krakauer, 2023). Wenn dem so ist, würde man erwarten, dass LM-Repräsentationen nicht mit den Repräsentationen verbunden sind, die durch Bildmodelle erzeugt werden. Wir präsentieren eine empirische Bewertung über vier Familien von LMs (BERT, GPT-2, OPT und LLaMA-2) und drei Bildmodellarchitekturen (ResNet, SegFormer und MAE). Unsere Experimente zeigen, dass LMs teilweise gegen Repräsentationen konvergieren, die isomorph zu denen von Bildmodellen sind, unter Berücksichtigung von Dispersion, Polysemie und Häufigkeit. Dies hat wichtige Auswirkungen sowohl auf die multimodale Verarbeitung als auch auf die Debatte über das Verständnis von LMs (Mitchell und Krakauer, 2023).
Bestehende Kontrastive Lernmodelle für Bild-Text-Vision verbessern die Repräsentationsübertragbarkeit und unterstützen die Vorhersage ohne Beispiele, indem sie gepaarte Bild- und Bildunterschriftseinbettungen abgleichen und nicht zusammengehörende Paare auseinanderdrücken. Astronomische Bild-Label-Datensätze sind jedoch im Vergleich zu allgemeinen Bild- und Label-Datensätzen aus dem Internet signifikant kleiner. Wir stellen CosmoCLIP vor, ein astronomisches Bild-Text-Kontrastivlern-Framework, das präzise auf das vortrainierte CLIP-Modell unter Verwendung von SpaceNet und BLIP-basierten Bildunterschriften feinabgestimmt ist. SpaceNet, erreicht über FLARE, besteht aus ~13k optimal verteilten Bildern, während BLIP als reicher Wissensextraktor fungiert. Die reichen Semantiken, die aus diesen SpaceNet- und BLIP-Beschreibungen abgeleitet werden und kontrastiv gelernt werden, ermöglichen es CosmoCLIP, eine überlegene Verallgemeinerung über verschiedene in-domain und out-of-domain Aufgaben zu erreichen. Unsere Ergebnisse zeigen, dass CosmoCLIP ein einfaches, aber leistungsstarkes Framework ist, das CLIP signifikant bei der Klassifizierung ohne Beispiele und bei Bild-Text-Abrufaufgaben übertrifft.
In diesem Paper betrachten wir die Kontamination durch Codegenerierungstestsets, insbesondere in ihrer Verwendung in modernen großen Sprachmodellen. Wir diskutieren drei mögliche Quellen einer solchen Kontamination und zeigen Ergebnisse, die jede von ihnen unterstützen: (i) direktes Datenleck, (ii) indirektes Datenleck durch die Verwendung synthetischer Daten und (iii) Überanpassung an Auswertungssätze während der Modellauswahl. Schlüssel zu unseren Ergebnissen ist ein neuer Datensatz von 161 Anregungen mit ihren zugehörigen Python-Lösungen, der unter https://huggingface.co/datasets/CohereForAI/lbpp veröffentlicht wird.
Wir schlagen eine Roboterlernmethode für die Kommunikation, Planung und Ausführung einer Vielzahl von Aufgaben vor, genannt Dies&Das. Wir erreichen die Roboterplanung für allgemeine Aufgaben, indem wir die Leistung von Video-generativen Modellen nutzen, die auf internetweiten Daten trainiert sind und einen reichen physikalischen und semantischen Kontext enthalten. In dieser Arbeit behandeln wir drei grundlegende Herausforderungen bei der Video-basierten Planung: 1) eindeutige Aufgabenkommunikation mit einfachen menschlichen Anweisungen, 2) steuerbare Videoerzeugung, die die Absichten des Benutzers respektiert, und 3) die Übersetzung visueller Planung in Roboteraktionen. Wir schlagen eine Sprach-Gesten-Konditionierung zur Generierung von Videos vor, die sowohl einfacher als auch klarer ist als bestehende Methoden, insbesondere in komplexen und unsicheren Umgebungen. Anschließend schlagen wir ein Verhaltensklon-Design vor, das die Videopläne nahtlos integriert. Dies&Das zeigt eine Spitzenwirksamkeit bei der Bewältigung der oben genannten drei Herausforderungen und rechtfertigt die Verwendung der Videoerzeugung als Zwischenrepräsentation für generalisierbare Aufgabenplanung und -ausführung. Projekthomepage: https://cfeng16.github.io/this-and-that/.
Das Training eines Klassifizierers auf Web-gesammelten Daten erfordert Lernalgorithmen, die robust gegenüber Annotierungsfehlern und irrelevanten Beispielen sind. Dieser Artikel baut auf der kürzlich gemachten empirischen Beobachtung auf, dass die Anwendung unüberwachter kontrastiver Lernverfahren auf rauschigen, aus dem Web gesammelten Datensätzen eine Merkmalsdarstellung liefert, unter der die in-Verteilung (ID) und außerhalb-der-Verteilung (OOD) Proben linear separierbar sind. Wir zeigen, dass die direkte Schätzung der trennenden Hyperebene tatsächlich eine genaue Erkennung von OOD-Proben bieten kann, und dennoch überraschenderweise führt diese Erkennung nicht zu Verbesserungen der Klassifikationsgenauigkeit. Bei genauerer Untersuchung dieses Phänomens entdecken wir, dass die nahezu perfekte Erkennung eine Art sauberer Beispiele verpasst, die für überwachtes Lernen wertvoll sind. Diese Beispiele stellen oft visuell einfache Bilder dar, die relativ einfach als saubere Beispiele identifiziert werden können, indem Standardverlust- oder Distanzbasierte Methoden verwendet werden, obwohl sie durch unüberwachtes Lernen schlecht von der OOD-Verteilung separiert sind. Da wir zudem eine geringe Korrelation mit SOTA-Metriken beobachten, drängt uns dies dazu, einen hybriden Lösungsansatz vorzuschlagen, der zwischen der Rauscherkennung mittels linearer Separation und einem State-of-the-Art (SOTA) Small-Loss-Ansatz abwechselt. In Kombination mit dem SOTA-Algorithmus PLS verbessern wir signifikant die SOTA-Ergebnisse für die Bildklassifizierung in der realen Welt in Gegenwart von Web-Rauschen github.com/PaulAlbert31/LSA.
Wir stellen BiGym vor, einen neuen Benchmark und Lernumgebung für mobile bimanuelle demo-gesteuerte robotische Manipulation. BiGym umfasst 40 verschiedene Aufgaben in häuslichen Umgebungen, von einfachen Zielerreichungen bis hin zur komplexen Küchenreinigung. Um die Leistung in der realen Welt präzise zu erfassen, bieten wir für jede Aufgabe menschlich gesammelte Demonstrationen an, die die vielfältigen Modalitäten widerspiegeln, die in den Trajektorien von Robotern in der realen Welt zu finden sind. BiGym unterstützt eine Vielzahl von Beobachtungen, einschließlich propriozeptiver Daten und visueller Eingaben wie RGB sowie Tiefeninformationen aus 3 Kameraperspektiven. Um die Benutzerfreundlichkeit von BiGym zu validieren, benchmarken wir gründlich die state-of-the-art Imitationslernalgorithmen und demo-gesteuerten Verstärkungslernalgorithmen innerhalb der Umgebung und diskutieren zukünftige Möglichkeiten.
Die Generierung von Menschenmengenbewegungen ist in Unterhaltungsindustrien wie Animation und Spielen sowie in strategischen Bereichen wie städtischer Simulation und Planung unerlässlich. Diese neue Aufgabe erfordert eine komplexe Integration von Steuerung und Generierung, um realistisch die Dynamik von Menschenmengen unter spezifischen räumlichen und semantischen Einschränkungen zu synthetisieren, deren Herausforderungen noch nicht vollständig erforscht sind. Einerseits konzentrieren sich bestehende Modelle zur Generierung menschlicher Bewegungen in der Regel auf individuelle Verhaltensweisen und vernachlässigen die Komplexitäten kollektiver Verhaltensweisen. Andererseits hängen aktuelle Methoden zur Generierung von Bewegungen mehrerer Personen stark von vordefinierten Szenarien ab und sind auf eine feste, kleine Anzahl von zwischenmenschlichen Interaktionen beschränkt, was ihre Praktikabilität einschränkt. Um diese Herausforderungen zu überwinden, stellen wir CrowdMoGen vor, ein textgesteuertes Framework ohne Trainingsdaten, das die kollektive Intelligenz in das Bewegungsgenerierungsframework als Leitfaden integriert, um eine generalisierbare Planung und Generierung von Menschenmengenbewegungen zu ermöglichen. Unser Framework besteht aus zwei Schlüsselkomponenten: 1) Crowd-Szenenplaner, der lernt, Bewegungen und Dynamiken gemäß spezifischer Szenenkontexte oder eingeführter Störungen zu koordinieren, und 2) Kollektiver Bewegungsgenerator, der effizient die erforderlichen kollektiven Bewegungen basierend auf den ganzheitlichen Plänen synthetisiert. Umfangreiche quantitative und qualitative Experimente haben die Wirksamkeit unseres Frameworks validiert, das nicht nur eine kritische Lücke füllt, indem es skalierbare und generalisierbare Lösungen für die Aufgabe der Generierung von Menschenmengenbewegungen bietet, sondern auch hohe Realitäts- und Flexibilitätsniveaus erreicht.