Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren einen umfassenden Bericht über die Komprimierung der Llama 3.1 8B und Mistral NeMo 12B Modelle auf 4B bzw. 8B Parameter unter Verwendung von Pruning und Distillation. Wir untersuchen zwei unterschiedliche Pruning-Strategien: (1) Tiefenpruning und (2) gemeinsames Versteck-/Aufmerksamkeits-/MLP (Breite) Pruning und evaluieren die Ergebnisse anhand gängiger Benchmarks des LM Evaluation Harness. Die Modelle werden dann mit dem NeMo Aligner ausgerichtet und in instruktionsangepassten Versionen getestet. Dieser Ansatz führt zu einem überzeugenden 4B Modell aus Llama 3.1 8B und einem modernen Mistral-NeMo-Minitron-8B (MN-Minitron-8B zur Kürze) Modell aus Mistral NeMo 12B. Wir haben festgestellt, dass es vorteilhaft ist, Lehrermodelle leicht auf dem Distillationsdatensatz nachzujustieren, ohne Zugriff auf die Originaldaten zu haben. Wir stellen unsere Basis-Modellgewichte unter einer freizügigen Lizenz auf Hugging Face als Open Source zur Verfügung.
In dieser Arbeit diskutieren wir die Bewertung von Video-Grundlagenmodellen auf faire und robuste Weise. Im Gegensatz zu Sprach- oder Bild-Grundlagenmodellen werden viele Video-Grundlagenmodelle mit unterschiedlichen Parametern bewertet (wie z. B. Abtastrate, Anzahl der Frames, Anzahl der Vortrainingschritte usw.), was faire und robuste Vergleiche erschwert. Daher präsentieren wir einen sorgfältig gestalteten Bewertungsrahmen zur Messung zweier Kernfähigkeiten der Video-Verständnis: Erscheinungsbild und Bewegungsverständnis. Unsere Ergebnisse zeigen, dass bestehende Video-Grundlagenmodelle, ob textüberwacht wie UMT oder InternVideo2 oder selbstüberwacht wie V-JEPA, Einschränkungen in mindestens einer dieser Fähigkeiten aufweisen. Als Alternative stellen wir TWLV-I vor, ein neues Video-Grundlagenmodell, das robuste visuelle Repräsentationen für sowohl bewegungs- als auch erscheinungsbasierte Videos erstellt. Basierend auf der durchschnittlichen Top-1-Genauigkeit des linearen Sondierens auf fünf Aktionserkennungs-Benchmarks, die nur auf öffentlich zugänglichen Datensätzen vortrainiert sind, zeigt unser Modell eine Verbesserung um 4,6%p im Vergleich zu V-JEPA (ViT-L) und eine Verbesserung um 7,7%p im Vergleich zu UMT (ViT-L). Selbst im Vergleich zu wesentlich größeren Modellen zeigt unser Modell eine Verbesserung um 7,2%p im Vergleich zu DFN (ViT-H), eine Verbesserung um 2,7%p im Vergleich zu V-JEPA (ViT-H) und eine Verbesserung um 2,8%p im Vergleich zu InternVideo2 (ViT-g). Wir stellen Einbettungsvektoren vor, die von TWLV-I aus Videos mehrerer häufig verwendeter Video-Benchmarks erhalten wurden, zusammen mit Evaluierungsquellcode, der diese Einbettungen direkt nutzen kann. Der Code ist verfügbar unter "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
Die Befähigung von LLMs, nützliche Informationen aus einem langen Kontext zu nutzen, ist für viele nachgelagerte Anwendungen entscheidend. Allerdings erfordert die Erreichung langer Kontextlängen mit der herkömmlichen Transformer-Architektur erhebliche Schulungs- und Inferenzressourcen. In diesem Artikel stellen wir FocusLLM vor, ein Framework, das entwickelt wurde, um die Kontextlänge eines jeden Decoder-only LLMs zu erweitern, sodass das Modell relevante Informationen aus sehr langen Sequenzen fokussieren kann. FocusLLM verarbeitet lange Texteingaben, indem es sie in Abschnitte unterteilt, die auf der ursprünglichen Kontextlänge des Modells basieren, um das Problem der Aufmerksamkeitsablenkung zu mildern. Anschließend fügt es jedem Abschnitt den lokalen Kontext als Anregung hinzu, um mithilfe eines neuartigen parallelen Dekodiermechanismus wesentliche Informationen aus jedem Abschnitt zu extrahieren und diese letztendlich in den lokalen Kontext zu integrieren. FocusLLM zeichnet sich durch hohe Schulungseffizienz und Vielseitigkeit aus: Mit einer Eingabelänge von 8K trainiert und mit deutlich geringeren Schulungskosten als bei früheren Methoden zeigt FocusLLM eine überlegene Leistung bei nachgelagerten Aufgaben mit langem Kontext und behält eine starke Sprachmodellierungsfähigkeit bei der Bearbeitung umfangreicher langer Texte, sogar bis zu 400K Tokens. Unser Code ist verfügbar unter https://github.com/leezythu/FocusLLM.
In den letzten Jahren gab es erhebliche Fortschritte bei der kontrollierbaren Videogenerierung auf der Basis von Diffusion. Dennoch bleibt die präzise Steuerung in komplexen Szenarien, einschließlich feingliedriger Objektteile, anspruchsvoller Bewegungsbahnen und kohärenter Hintergrundbewegungen, eine Herausforderung. In diesem Artikel stellen wir TrackGo vor, einen neuartigen Ansatz, der freiform Masken und Pfeile für die bedingte Videogenerierung nutzt. Diese Methode bietet Benutzern einen flexiblen und präzisen Mechanismus zur Manipulation von Videoinhalten. Wir schlagen auch den TrackAdapter für die Implementierung der Steuerung vor, einen effizienten und leichten Adapter, der darauf ausgelegt ist, nahtlos in die zeitlichen Selbst-Aufmerksamkeitsschichten eines vorab trainierten Videogenerierungsmodells integriert zu werden. Dieses Design nutzt unsere Beobachtung, dass die Aufmerksamkeitskarte dieser Schichten Regionen genau aktivieren kann, die Bewegungen in Videos entsprechen. Unsere experimentellen Ergebnisse zeigen, dass unser neuer Ansatz, verstärkt durch den TrackAdapter, Spitzenleistungen bei wichtigen Metriken wie FVD, FID und ObjMC-Scores erzielt. Die Projektseite von TrackGo finden Sie unter: https://zhtjtcz.github.io/TrackGo-Page/
Große multimodale Modelle (LMMs) haben Fähigkeiten in vielen visuellen Aufgaben gezeigt. Obwohl zahlreiche bekannte Benchmarks zur Bewertung der Modellleistung existieren, reicht ihr Leistungsspielraum zunehmend nicht aus. Daher besteht ein dringender Bedarf an einer neuen Generation von Benchmarks, die herausfordernd genug für die nächste Generation von LMMs sind. Ein Bereich, in dem LMMs Potenzial zeigen, ist die Graphenanalyse, insbesondere die Aufgaben, die ein Analyst typischerweise bei der Interpretation von Abbildungen durchführt, wie die Schätzung des Mittelwerts, der Schnittpunkte oder Korrelationen von Funktionen und Datenreihen. In dieser Arbeit stellen wir GRAB vor, einen Graphenanalyse-Benchmark, der für aktuelle und zukünftige Spitzen-LMMs geeignet ist. Unser Benchmark ist vollständig synthetisch und stellt sicher, dass die Fragen von hoher Qualität und frei von Rauschen sind. GRAB besteht aus 2170 Fragen, die vier Aufgaben und 23 Grapheneigenschaften abdecken. Wir bewerten 20 LMMs anhand von GRAB und stellen fest, dass es sich um einen anspruchsvollen Benchmark handelt, wobei das am besten abschneidende Modell nur einen Punktestand von 21,7% erreicht. Schließlich führen wir verschiedene Ablationen durch, um zu untersuchen, wo die Modelle erfolgreich sind und wo sie Schwierigkeiten haben. Wir veröffentlichen GRAB, um Fortschritte in diesem wichtigen, wachsenden Bereich zu fördern.
Text-zu-Bild (T2I) Diffusionsmodelle haben beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Bilder anhand eines Texthinweises gezeigt. Die Sicherstellung der Ausrichtung von Hinweis und Bild bleibt jedoch eine erhebliche Herausforderung, d.h., Bilder zu erzeugen, die treu mit der Semantik des Hinweises übereinstimmen. Aktuelle Arbeiten versuchen, die Treue zu verbessern, indem sie den latenten Code optimieren, was potenziell dazu führen könnte, dass der latente Code außerhalb der Verteilung gerät und somit unrealistische Bilder erzeugt. In diesem Papier schlagen wir FRAP vor, einen einfachen, aber effektiven Ansatz, der auf der adaptiven Anpassung der Gewichte pro Token-Hinweis basiert, um die Ausrichtung von Hinweis und Bild sowie die Authentizität der erzeugten Bilder zu verbessern. Wir entwerfen einen Online-Algorithmus zur adaptiven Aktualisierung des Gewichtskoeffizienten jedes Tokens, der durch die Minimierung einer vereinheitlichten Ziel-Funktion erreicht wird, die die Präsenz von Objekten und die Bindung von Objekt-Modifikator-Paaren fördert. Durch umfangreiche Bewertungen zeigen wir, dass FRAP Bilder erzeugt, die eine signifikant höhere Ausrichtung von Hinweis und Bild zu Hinweisen aus komplexen Datensätzen aufweisen, während sie im Durchschnitt eine geringere Latenz aufweisen im Vergleich zu aktuellen Methoden zur Optimierung des latenten Codes, z.B., 4 Sekunden schneller als D&B auf dem COCO-Subject Datensatz. Darüber hinaus zeigen wir durch visuelle Vergleiche und Bewertungen anhand des CLIP-IQA-Real Metriks, dass FRAP nicht nur die Ausrichtung von Hinweis und Bild verbessert, sondern auch authentischere Bilder mit realistischem Erscheinungsbild erzeugt. Wir untersuchen auch die Kombination von FRAP mit prompt rewriting LLM, um ihre degradierte Ausrichtung von Hinweis und Bild wiederherzustellen, wobei wir Verbesserungen sowohl bei der Ausrichtung von Hinweis und Bild als auch bei der Bildqualität feststellen.
Moderne maschinelle Lernsysteme verlassen sich auf große Datensätze, um eine breite Verallgemeinerung zu erreichen, was in der Roboterlernumgebung oft eine Herausforderung darstellt, da jede Roboterplattform und Aufgabe möglicherweise nur über einen kleinen Datensatz verfügt. Durch das Training einer einzigen Richtlinie über viele verschiedene Arten von Robotern hinweg kann eine Roboterlernmethode auf wesentlich breitere und vielfältigere Datensätze zurückgreifen, was wiederum zu einer besseren Verallgemeinerung und Robustheit führen kann. Das Training einer einzigen Richtlinie auf Multi-Roboter-Daten ist jedoch herausfordernd, da Roboter über stark unterschiedliche Sensoren, Aktuatoren und Steuerfrequenzen verfügen können. Wir schlagen CrossFormer vor, eine skalierbare und flexible Transformer-basierte Richtlinie, die Daten aus jeder Ausprägung verarbeiten kann. Wir trainieren CrossFormer an dem bisher größten und vielfältigsten Datensatz, 900.000 Trajektorien über 20 verschiedene Roboter-Ausprägungen. Wir zeigen, dass dieselben Netzwerk-Gewichte eine Vielzahl von unterschiedlichen Robotern steuern können, darunter Einzel- und Doppelarm-Manipulationssysteme, Radroboter, Quadrokopter und Vierbeiner. Im Gegensatz zu früheren Arbeiten erfordert unser Modell keine manuelle Ausrichtung der Beobachtungs- oder Aktionsräume. Umfangreiche Experimente in der realen Welt zeigen, dass unsere Methode die Leistung spezialisierter Richtlinien, die für jede Ausprägung maßgeschneidert sind, erreicht, während sie auch den bisherigen Stand der Technik im Bereich des Lernens über verschiedene Ausprägungen signifikant übertrifft.
Wir behandeln eine anhaltende Herausforderung in Text-zu-Bild-Modellen: die präzise Generierung einer spezifizierten Anzahl von Objekten. Aktuelle Modelle, die aus Bild-Text-Paaren lernen, haben inhärent Schwierigkeiten mit dem Zählen, da Trainingsdaten nicht jede mögliche Anzahl von Objekten für ein gegebenes Objekt darstellen können. Um dies zu lösen, schlagen wir vor, das generierte Bild anhand eines Zählverlusts zu optimieren, der von einem Zählmodell abgeleitet ist, das das Potenzial eines Objekts aggregiert. Die Verwendung eines sofort einsatzbereiten Zählmodells ist aus zwei Gründen herausfordernd: Erstens erfordert das Modell einen Skalierungshyperparameter für die Potenzialaggregation, der je nach Blickwinkel der Objekte variiert, und zweitens erfordern Klassifizierungsanleitungstechniken modifizierte Modelle, die auf rauschigen Zwischendiffusionsschritten arbeiten. Um diesen Herausforderungen zu begegnen, schlagen wir einen iterativen Online-Trainingsmodus vor, der die Genauigkeit der abgeleiteten Bilder verbessert, während die Textkonditionierungseinbettung geändert und die Hyperparameter dynamisch angepasst werden. Unsere Methode bietet drei Hauptvorteile: (i) sie kann nicht ableitbare Zähltechniken basierend auf Detektionsmodellen berücksichtigen, (ii) sie ist eine Plug-and-Play-Lösung, die schnelle Änderungen an den Zähltechniken und Bildgenerierungsmethoden ermöglicht, und (iii) das optimierte Zähl-Token kann wiederverwendet werden, um präzise Bilder ohne zusätzliche Optimierung zu generieren. Wir evaluieren die Generierung verschiedener Objekte und zeigen signifikante Verbesserungen in der Genauigkeit. Die Projektseite ist unter https://ozzafar.github.io/count_token verfügbar.
Die Erkennung von Out-of-Distribution (OOD)-Daten ist in Anwendungen des maschinellen Lernens entscheidend, um das Risiko von Modell-Übervertrauen zu verringern und damit die Zuverlässigkeit und Sicherheit der implementierten Systeme zu erhöhen. Die Mehrheit der bestehenden OOD-Erkennungsmethoden behandelt hauptsächlich unimodale Eingaben wie Bilder oder Texte. Im Kontext von multimodalen Dokumenten besteht ein bemerkenswerter Mangel an umfangreichen Forschungsarbeiten zur Leistungsfähigkeit dieser Methoden, die hauptsächlich auf Computer Vision Aufgaben ausgerichtet wurden. Wir schlagen eine neuartige Methodik namens Attention Head Masking (AHM) für multimodale OOD-Aufgaben in Dokumentenklassifikationssystemen vor. Unsere empirischen Ergebnisse zeigen, dass die vorgeschlagene AHM-Methode alle aktuellen State-of-the-Art-Ansätze übertrifft und die Fehlalarmrate im Vergleich zu bestehenden Lösungen um bis zu 7,5\% signifikant verringert. Diese Methodik generalisiert gut auf multimodale Daten wie Dokumente, bei denen visuelle und textuelle Informationen unter derselben Transformer-Architektur modelliert werden. Um dem Mangel an hochwertigen öffentlich verfügbaren Dokumentendatensätzen entgegenzuwirken und weitere Forschung zur OOD-Erkennung für Dokumente zu fördern, stellen wir FinanceDocs vor, einen neuen Dokumenten-KI-Datensatz. Unser Code und Datensatz sind öffentlich verfügbar.
Visuelle Abrufsysteme stehen vor erheblichen Herausforderungen beim Aktualisieren von Modellen mit verbesserten Repräsentationen aufgrund von Missabstimmungen zwischen den alten und neuen Repräsentationen. Der kostspielige und ressourcenintensive Backfilling-Prozess beinhaltet das Neuberechnen von Merkmalsvektoren für Bilder im Galerieset, wann immer ein neues Modell eingeführt wird. Um dies zu bewältigen, haben frühere Forschungsarbeiten rückwärtskompatible Trainingsmethoden erforscht, die direkte Vergleiche zwischen neuen und alten Repräsentationen ohne Backfilling ermöglichen. Trotz dieser Fortschritte bleibt die Erreichung eines Gleichgewichts zwischen Rückwärtskompatibilität und der Leistung von unabhängig trainierten Modellen ein offenes Problem. In diesem Artikel gehen wir darauf ein, indem wir den Repräsentationsraum mit zusätzlichen Dimensionen erweitern und eine orthogonale Transformation erlernen, um Kompatibilität mit alten Modellen zu erreichen und gleichzeitig neue Informationen zu integrieren. Diese Transformation erhält die Geometrie des ursprünglichen Merkmalsraums, wodurch sichergestellt wird, dass unser Modell mit früheren Versionen übereinstimmt und gleichzeitig neue Daten lernt. Unser Orthogonal Compatible Aligned (OCA) Ansatz beseitigt die Notwendigkeit für eine erneute Indizierung während der Modellaktualisierungen und stellt sicher, dass Merkmale direkt über verschiedene Modellaktualisierungen hinweg verglichen werden können, ohne zusätzliche Zuordnungsfunktionen. Experimentelle Ergebnisse zu CIFAR-100 und ImageNet-1k zeigen, dass unsere Methode nicht nur die Kompatibilität mit früheren Modellen aufrechterhält, sondern auch eine Spitzenpräzision erreicht, wobei sie mehrere bestehende Methoden übertrifft.
Große Sprachmodelle (LLMs) neigen dazu, gesellschaftliche Voreingenommenheiten zu übernehmen und zu verstärken, die in ihren Trainingsdaten eingebettet sind, was potenziell schädliche Stereotypen in Bezug auf Geschlecht, Beruf und andere sensible Kategorien verstärken kann. Dieses Problem wird besonders problematisch, da voreingenommene LLMs weitreichende Konsequenzen haben können, die zu ungerechten Praktiken führen und soziale Ungleichheiten in verschiedenen Bereichen wie Personalbeschaffung, Online-Inhaltsmoderation oder sogar im Strafrecht verschärfen können. Obwohl frühere Forschungen darauf abzielten, Voreingenommenheiten in LLMs mithilfe spezialisierter Datensätze zur Betonung inhärenter Voreingenommenheiten zu erkennen, gab es eine bemerkenswerte mangelnde Untersuchung darüber, wie sich diese Erkenntnisse mit autoritativen Datensätzen wie denen des U.S. National Bureau of Labor Statistics (NBLS) korrelieren. Um diese Lücke zu schließen, führen wir empirische Forschungen durch, die LLMs in einem „Bias-aus-der-Box“-Szenario bewerten, indem wir analysieren, wie sich die generierten Ausgaben mit den in den NBLS-Daten gefundenen Verteilungen vergleichen lassen. Darüber hinaus schlagen wir einen einfachen, aber effektiven Entvoreingenommenheitsmechanismus vor, der direkt NBLS-Instanzen einbezieht, um Voreingenommenheiten in LLMs zu mildern. Unsere Studie umfasst sieben verschiedene LLMs, darunter instruierbare, Basis- und Mixture-of-Expert-Modelle, und zeigt signifikante Voreingenommenheitsniveaus auf, die von bestehenden Voreingenommenheitserkennungstechniken oft übersehen werden. Wichtig ist, dass unsere Entvoreingenommenheitsmethode, die nicht auf externen Datensätzen beruht, eine wesentliche Reduktion der Voreingenommenheitswerte aufzeigt und damit die Wirksamkeit unseres Ansatzes bei der Schaffung fairerer und zuverlässigerer LLMs unterstreicht.
Im Rahmen der geteilten Aufgaben der Open Language Data Initiative haben wir den FLORES+ Bewertungssatz erweitert, um Emakhuwa einzuschließen, eine wenig erforschte Sprache, die in Mosambik weit verbreitet gesprochen wird. Wir haben die dev- und devtest-Sätze aus dem Portugiesischen ins Emakhuwa übersetzt und den Übersetzungsprozess sowie die durchgeführten Qualitätskontrollmaßnahmen im Detail beschrieben. Unsere Methodik umfasste verschiedene Qualitätsprüfungen, einschließlich Post-Editing und Angemessenheitsbewertungen. Die resultierenden Datensätze bestehen aus mehreren Referenzsätzen für jede Quelle. Wir präsentieren Baseline-Ergebnisse aus dem Training eines Neuralen Maschinenübersetzungssystems und dem Feintuning bestehender mehrsprachiger Übersetzungsmodelle. Unsere Ergebnisse deuten darauf hin, dass Rechtschreibinkonsistenzen eine Herausforderung im Emakhuwa darstellen. Darüber hinaus schnitten die Baselinemodelle bei diesem Bewertungssatz schlechter ab, was die Notwendigkeit weiterer Forschung zur Verbesserung der Qualität der maschinellen Übersetzung für Emakhuwa unterstreicht. Die Daten sind öffentlich unter https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES verfügbar.