Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Da der Online-Handel wächst, ist die Fähigkeit der Käufer, Produkte virtuell in ihren eigenen Umgebungen zu visualisieren – ein Phänomen, das wir als „Virtual Try-All“ definieren – von entscheidender Bedeutung geworden. Aktuelle Diffusionsmodelle enthalten inhärent ein Weltmodell, was sie für diese Aufgabe im Kontext des Inpaintings geeignet macht. Traditionelle bildgesteuerte Diffusionsmodelle erfassen jedoch oft nicht die fein abgestuften Details von Produkten. Im Gegensatz dazu sind personalisierungsgetriebene Modelle wie DreamPaint gut darin, die Details des Artikels zu bewahren, aber sie sind nicht für Echtzeitanwendungen optimiert. Wir präsentieren „Diffuse to Choose“, ein neuartiges, diffusionsbasiertes, bildgesteuertes Inpainting-Modell, das schnelle Inferenz effizient mit der Beibehaltung hochauflösender Details in einem gegebenen Referenzartikel ausbalanciert und gleichzeitig präzise semantische Manipulationen im gegebenen Szeneninhalt sicherstellt. Unser Ansatz basiert darauf, fein abgestufte Merkmale aus dem Referenzbild direkt in die latenten Merkmalskarten des Hauptdiffusionsmodells zu integrieren, ergänzt durch einen Wahrnehmungsverlust, um die Details des Referenzartikels weiter zu bewahren. Wir führen umfangreiche Tests sowohl mit internen als auch öffentlich verfügbaren Datensätzen durch und zeigen, dass Diffuse to Choose bestehenden Zero-Shot-Diffusions-Inpainting-Methoden sowie Few-Shot-Diffusions-Personalisierungsalgorithmen wie DreamPaint überlegen ist.
Die rasante Entwicklung großer Sprachmodelle hat die Code-Intelligenz in der Softwareentwicklung revolutioniert. Die Dominanz geschlossener Quellmodelle hat jedoch umfangreiche Forschung und Entwicklung eingeschränkt. Um dies zu adressieren, stellen wir die DeepSeek-Coder-Serie vor, eine Reihe von Open-Source-Code-Modellen mit Größen von 1,3B bis 33B, die von Grund auf mit 2 Billionen Tokens trainiert wurden. Diese Modelle sind auf einem hochwertigen projektbasierten Code-Korpus vortrainiert und verwenden eine Fill-in-the-Blank-Aufgabe mit einem 16K-Fenster, um die Code-Generierung und -Ergänzung zu verbessern. Unsere umfangreichen Evaluierungen zeigen, dass DeepSeek-Coder nicht nur state-of-the-art Leistung unter Open-Source-Code-Modellen in mehreren Benchmarks erreicht, sondern auch bestehende geschlossene Quellmodelle wie Codex und GPT-3.5 übertrifft. Darüber hinaus stehen die DeepSeek-Coder-Modelle unter einer freizügigen Lizenz, die sowohl Forschung als auch uneingeschränkte kommerzielle Nutzung ermöglicht.
In dieser Arbeit untersuchen wir erneut die Abhängigkeiten zwischen Patches im Decodierungsmechanismus von Masked Autoencoders (MAE). Wir zerlegen diesen Decodierungsmechanismus für die Rekonstruktion maskierter Patches in MAE in Self-Attention und Cross-Attention. Unsere Untersuchungen legen nahe, dass Self-Attention zwischen maskierten Patches nicht essenziell für das Erlernen guter Repräsentationen ist. Zu diesem Zweck schlagen wir ein neuartiges Pre-Training-Framework vor: Cross-Attention Masked Autoencoders (CrossMAE). Der Decoder von CrossMAE nutzt ausschließlich Cross-Attention zwischen maskierten und sichtbaren Tokens, ohne dabei die Leistung in nachgelagerten Aufgaben zu beeinträchtigen. Dieses Design ermöglicht es zudem, nur eine kleine Teilmenge der maskierten Tokens zu decodieren, was die Effizienz steigert. Darüber hinaus kann jeder Decoder-Block nun unterschiedliche Encoder-Features nutzen, was zu einer verbesserten Repräsentationslernfähigkeit führt. CrossMAE erreicht die Leistung von MAE mit 2,5- bis 3,7-mal weniger Decodierungsrechenaufwand. Es übertrifft MAE auch bei der ImageNet-Klassifikation und der COCO-Instanzsegmentierung unter gleichem Rechenaufwand. Code und Modelle: https://crossmae.github.io
In der dynamischen Landschaft des generativen NLP schränken traditionelle Textverarbeitungspipelines die Forschungsflexibilität und Reproduzierbarkeit ein, da sie auf spezifische Kombinationen von Datensätzen, Aufgaben und Modellen zugeschnitten sind. Die zunehmende Komplexität, die Systemprompts, modellspezifische Formate, Anweisungen und mehr umfasst, erfordert einen Wechsel zu einer strukturierten, modularen und anpassbaren Lösung. Um diesem Bedarf gerecht zu werden, präsentieren wir Unitxt, eine innovative Bibliothek für die anpassbare Vorbereitung und Bewertung von Textdaten, die speziell für generative Sprachmodelle entwickelt wurde. Unitxt integriert sich nahtlos in gängige Bibliotheken wie HuggingFace und LM-eval-harness und zerlegt Verarbeitungsabläufe in modulare Komponenten, wodurch eine einfache Anpassung und gemeinsame Nutzung zwischen Praktikern ermöglicht wird. Diese Komponenten umfassen modellspezifische Formate, Aufgabenprompts und viele andere umfassende Definitionen zur Datensatzverarbeitung. Der Unitxt-Katalog zentralisiert diese Komponenten und fördert die Zusammenarbeit und Exploration in modernen Textdaten-Workflows. Unitxt ist mehr als nur ein Werkzeug; es ist eine community-gesteuerte Plattform, die Nutzer befähigt, ihre Pipelines gemeinsam zu erstellen, zu teilen und weiterzuentwickeln. Werden Sie Teil der Unitxt-Community unter https://github.com/IBM/unitxt!
Sechs-Bit-Quantisierung (FP6) kann die Größe von großen Sprachmodellen (LLMs) effektiv reduzieren und die Modellqualität konsistent über verschiedene Anwendungen hinweg bewahren. Allerdings bieten bestehende Systeme keine Tensor-Core-Unterstützung für FP6-Quantisierung und haben Schwierigkeiten, praktische Leistungsverbesserungen während der LLM-Inferenz zu erzielen. Die Unterstützung von FP6-Quantisierung auf GPUs ist aufgrund von (1) ungünstigem Speicherzugriff von Modellgewichten mit unregelmäßiger Bitbreite und (2) hohem Laufzeitaufwand bei der Gewichtsdequantisierung eine Herausforderung. Um diese Probleme zu lösen, schlagen wir TC-FPx vor, das erste Full-Stack-GPU-Kernel-Designschema mit einheitlicher Tensor-Core-Unterstützung für Gleitkommagewichte mit verschiedenen Quantisierungsbitbreiten. Wir integrieren den TC-FPx-Kernel in ein bestehendes Inferenzsystem und bieten eine neue End-to-End-Unterstützung (genannt FP6-LLM) für quantisierte LLM-Inferenz, bei der bessere Kompromisse zwischen Inferenzkosten und Modellqualität erreicht werden. Experimente zeigen, dass FP6-LLM die Inferenz von LLaMA-70b mit nur einer einzigen GPU ermöglicht und dabei einen 1,69x-2,65x höheren normalisierten Inferenzdurchsatz als die FP16-Baseline erzielt. Der Quellcode wird bald öffentlich verfügbar sein.
In dieser Studie untersuchen wir die Fähigkeiten von Denoising Diffusion Models (DDM) zur Repräsentationslernens, die ursprünglich für die Bildgenerierung entwickelt wurden. Unser Ansatz besteht darin, ein DDM zu dekonstruieren und es schrittweise in ein klassisches Denoising Autoencoder (DAE) zu transformieren. Dieser Dekonstruktionsprozess ermöglicht es uns zu erforschen, wie verschiedene Komponenten moderner DDMs das selbstüberwachte Repräsentationslernen beeinflussen. Wir beobachten, dass nur sehr wenige moderne Komponenten entscheidend für das Erlernen guter Repräsentationen sind, während viele andere nicht wesentlich sind. Unsere Studie führt letztendlich zu einem stark vereinfachten Ansatz, der in hohem Maße einem klassischen DAE ähnelt. Wir hoffen, dass unsere Studie das Interesse an einer Familie klassischer Methoden im Bereich des modernen selbstüberwachten Lernens neu entfachen wird.
Wir schlagen vor, Transformer einer bestimmten Modalität mit irrelevanten Daten aus anderen Modalitäten zu verbessern, z. B. ein ImageNet-Modell mit Audio- oder Punktwolken-Datensätzen. Wir möchten hervorheben, dass die Datenproben der Zielmodalität für die anderen Modalitäten irrelevant sind, was unsere Methode von anderen Arbeiten unterscheidet, die gepaarte (z. B. CLIP) oder verschachtelte Daten verschiedener Modalitäten nutzen. Wir schlagen eine Methodik namens Multimodal Pathway vor – gegeben eine Zielmodalität und einen dafür entwickelten Transformer, verwenden wir einen zusätzlichen Transformer, der mit Daten einer anderen Modalität trainiert wurde, und konstruieren Pfade, um Komponenten der beiden Modelle zu verbinden, sodass Daten der Zielmodalität von beiden Modellen verarbeitet werden können. Auf diese Weise nutzen wir die universellen Sequenz-zu-Sequenz-Modellierungsfähigkeiten von Transformern, die aus zwei Modalitäten gewonnen wurden. Als konkrete Implementierung verwenden wir wie üblich einen modalitätsspezifischen Tokenizer und einen aufgaben-spezifischen Head, nutzen jedoch die Transformer-Blöcke des zusätzlichen Modells über eine vorgeschlagene Methode namens Cross-Modal Re-parameterization, die die zusätzlichen Gewichte ohne jegliche Inferenzkosten ausnutzt. Bei Bild-, Punktwolken-, Video- und Audio-Erkennungsaufgaben beobachten wir signifikante und konsistente Leistungsverbesserungen mit irrelevanten Daten aus anderen Modalitäten. Der Code und die Modelle sind unter https://github.com/AILab-CVC/M2PT verfügbar.
Der Einsatz von Robotern in offenen, unstrukturierten Umgebungen wie Haushalten stellt seit langem ein Forschungsproblem dar. Allerdings werden Roboter oft nur in abgeschirmten Laborsituationen untersucht, und frühere Arbeiten zur mobilen Manipulation beschränken sich auf das Aufnehmen-Bewegen-Ablegen, was in diesem Bereich wohl nur die Spitze des Eisbergs darstellt. In diesem Artikel stellen wir das Open-World Mobile Manipulation System vor, einen ganzheitlichen Ansatz zur Bewältigung realistischer Aufgaben an artikulierten Objekten, wie z.B. Türen, Schränken, Schubladen und Kühlschränken in offenen, unstrukturierten Umgebungen. Der Roboter nutzt ein adaptives Lernframework, um zunächst aus einer kleinen Datenmenge durch Verhaltensklonung zu lernen, gefolgt vom Lernen durch Online-Praxis an neuen Objekten, die außerhalb der Trainingsverteilung liegen. Wir entwickeln außerdem eine kostengünstige Hardwareplattform für mobile Manipulation, die in der Lage ist, sich sicher und autonom in unstrukturierten Umgebungen anzupassen, mit Kosten von etwa 20.000 USD. In unseren Experimenten verwenden wir 20 artikulierte Objekte in 4 Gebäuden auf dem Campus der CMU. Mit weniger als einer Stunde Online-Lernen für jedes Objekt kann das System die Erfolgsrate von 50% vor dem BC-Training auf 95% durch Online-Anpassung steigern. Videoergebnisse finden Sie unter https://open-world-mobilemanip.github.io/.
Wir stellen pix2gestalt vor, ein Framework für Zero-Shot Amodale Segmentierung, das lernt, die Form und das Erscheinungsbild ganzer Objekte zu schätzen, die nur teilweise hinter Verdeckungen sichtbar sind. Indem wir groß angelegte Diffusionsmodelle nutzen und deren Repräsentationen auf diese Aufgabe übertragen, lernen wir ein bedingtes Diffusionsmodell zur Rekonstruktion ganzer Objekte in anspruchsvollen Zero-Shot-Fällen, einschließlich Beispielen, die natürliche und physikalische Annahmen brechen, wie etwa Kunst. Als Trainingsdaten verwenden wir einen synthetisch kuratierten Datensatz, der verdeckte Objekte zusammen mit ihren vollständigen Gegenstücken enthält. Experimente zeigen, dass unser Ansatz überwachte Baselines auf etablierten Benchmarks übertrifft. Unser Modell kann darüber hinaus verwendet werden, um die Leistung bestehender Methoden zur Objekterkennung und 3D-Rekonstruktion bei Vorhandensein von Verdeckungen erheblich zu verbessern.
Der Mangel an hochwertigen Daten für inhaltsbasierte Generierungsaufgaben wurde als ein wesentliches Hindernis für die Weiterentwicklung dieser Aufgaben identifiziert. Um diese Lücke zu schließen, schlagen wir Genie vor, eine neuartige Methode zur automatischen Generierung von hochwertigen, inhaltsbasierten Daten. Diese besteht aus drei Phasen: (a) Inhaltsvorbereitung, (b) Generierung: Erstellung aufgabenbezogener Beispiele aus dem Inhalt (z. B. Frage-Antwort-Paare oder Zusammenfassungen), (c) ein Filtermechanismus, der darauf abzielt, die Qualität und Treue der generierten Daten sicherzustellen. Wir demonstrieren diese Methodik, indem wir drei groß angelegte synthetische Datensätze für Long-Form Question-Answering (LFQA), Zusammenfassung und Informationsextraktion erstellen. In einer menschlichen Bewertung wurden unsere generierten Daten als natürlich und von hoher Qualität eingestuft. Darüber hinaus vergleichen wir Modelle, die mit unseren Daten trainiert wurden, mit Modellen, die mit von Menschen geschriebenen Daten trainiert wurden – ELI5 und ASQA für LFQA sowie CNN-DailyMail für Zusammenfassungen. Wir zeigen, dass unsere Modelle mit Modellen, die mit menschlich generierten Daten trainiert wurden, gleichauf sind oder diese übertreffen und sie in Bezug auf die Treue konsequent übertreffen. Schließlich haben wir unsere Methode angewendet, um LFQA-Daten im medizinischen Bereich zu erstellen, und ein Modell, das mit diesen Daten trainiert wurde, mit Modellen verglichen, die in anderen Bereichen trainiert wurden.