Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle werden zunehmend zu einer Schlüsseltechnologie in der künstlichen Intelligenz, den Wissenschaften und der Gesellschaft insgesamt, dennoch bleiben die optimalen Strategien für die Zusammensetzung und Filterung von Datensätzen weitgehend unklar. Viele der leistungsstärksten Modelle weisen undurchsichtige Vorgehensweisen bei der Datensatzkuratierung und Modellentwicklung auf, was ein Hindernis für die Entwicklung vollständig offener Sprachmodelle darstellt. In diesem Paper identifizieren wir drei zentrale datenbezogene Herausforderungen, die angegangen werden müssen, um Open-Source-Sprachmodelle voranzubringen. Diese umfassen (1) Transparenz bei der Modellentwicklung, einschließlich des Datensatzkuratierungsprozesses, (2) Zugang zu großen Mengen hochwertiger Daten und (3) Verfügbarkeit von Artefakten und Metadaten für die Datensatzkuratierung und -analyse. Um diesen Herausforderungen zu begegnen, veröffentlichen wir RedPajama-V1, eine offene Reproduktion des LLaMA-Trainingsdatensatzes. Darüber hinaus veröffentlichen wir RedPajama-V2, einen umfangreichen ausschließlich webbasierten Datensatz, bestehend aus rohen, ungefilterten Textdaten zusammen mit Qualitätsindikatoren und Metadaten. Zusammen umfassen die RedPajama-Datensätze über 100 Billionen Tokens, die verschiedene Bereiche abdecken, und mit ihren Qualitätsindikatoren erleichtern sie die Datenfilterung mit dem Ziel, die Entwicklung zahlreicher neuer Datensätze zu inspirieren. Diese Datensätze wurden bereits zur Schulung leistungsstarker Sprachmodelle verwendet, die in der Produktion eingesetzt werden, wie beispielsweise Snowflake Arctic, Salesforce's XGen und AI2's OLMo. Um Einblicke in die Qualität von RedPajama zu geben, präsentieren wir eine Reihe von Analysen und Ablationsstudien mit ausschließlich Decoder-Sprachmodellen mit bis zu 1,6 Milliarden Parametern. Unsere Ergebnisse zeigen, wie Qualitätsindikatoren für Webdaten effektiv genutzt werden können, um hochwertige Teilmengen des Datensatzes zu kuratieren, was das Potenzial von RedPajama unterstreicht, die Entwicklung transparenter und leistungsstarker Sprachmodelle im großen Maßstab voranzutreiben.
Skizzenanimationen bieten ein leistungsstarkes Medium für visuelles Storytelling, von einfachen Flip-Book-Skizzen bis hin zu professionellen Studio-Produktionen. Während traditionelle Animationstechniken Teams aus erfahrenen Künstlern erfordern, um Schlüsselbilder und Zwischenbilder zu zeichnen, erfordern bestehende Automatisierungsansätze immer noch erheblichen künstlerischen Aufwand durch präzise Bewegungspfade oder Schlüsselbildspezifikationen. Wir stellen FlipSketch vor, ein System, das die Magie der Flip-Book-Animation zurückbringt - einfach deine Idee zeichnen und beschreiben, wie du möchtest, dass sie sich bewegt! Unser Ansatz nutzt Bewegungsprioritäten aus Text-zu-Video-Diffusionsmodellen, passt sie an, um Skizzenanimationen durch drei Schlüsselinnovationen zu generieren: (i) Feinabstimmung für die Generierung von Skizzenstil-Bildern, (ii) ein Referenzbildmechanismus, der die visuelle Integrität der Eingabeskizze durch Rauschverfeinerung bewahrt, und (iii) eine duale Aufmerksamkeitskomposition, die flüssige Bewegungen ermöglicht, ohne die visuelle Konsistenz zu verlieren. Im Gegensatz zu eingeschränkten Vektoranimationen unterstützen unsere Rasterbilder dynamische Skizzentransformationen und erfassen die expressive Freiheit traditioneller Animation. Das Ergebnis ist ein intuitives System, das Skizzenanimation so einfach wie das Kritzeln und Beschreiben macht, während die künstlerische Essenz der handgezeichneten Animation erhalten bleibt.
Kontinuierliche autoregressive (AR) Bildgenerierungsmodelle haben eine bemerkenswerte Überlegenheit gegenüber ihren diskreten Token-Gegenstücken gezeigt, indem sie eine beträchtliche Rekonstruktionsqualität und eine höhere Generierungstreue präsentierten. Die Rechenanforderungen des autoregressiven Rahmens führen jedoch zu erheblichem Inferenzaufwand. Während spekulatives Decodieren sich als effektiv zur Beschleunigung großer Sprachmodelle (LLMs) erwiesen hat, bleibt ihre Anpassung an kontinuierlich bewertete visuelle autoregressive Modelle unerforscht. Diese Arbeit verallgemeinert den spekulativen Decodierungsalgorithmus von diskreten Tokens auf den kontinuierlichen Raum. Durch die Analyse der intrinsischen Eigenschaften der Ausgabeverteilung etablieren wir ein maßgeschneidertes Akzeptanzkriterium für die in solchen Modellen vorherrschenden Diffusionsverteilungen. Um die Inkonsistenz zu überwinden, die bei Ausgabeverteilungen des spekulativen Decodierens auftrat, führen wir Methoden zur Rauschunterdrückung, Trajektorienausrichtung und Token-Vorabfüllung ein. Darüber hinaus identifizieren wir die schwer zu sampelnde Verteilung in der Ablehnungsphase. Um dieses Problem zu mildern, schlagen wir eine sorgfältige Akzeptanz-Ablehnungs-Sampling-Methode mit einer angemessenen Obergrenze vor, um komplexe Integrationen zu umgehen. Experimentelle Ergebnisse zeigen, dass unser kontinuierliches spekulatives Decodieren eine bemerkenswerte 2,33-fache Beschleunigung bei Modellen von der Stange erreicht, während die Ausgabeverteilung beibehalten wird. Der Code wird verfügbar sein unter https://github.com/MarkXCloud/CSpD.
Neueste Fortschritte bei grundlegenden Vision Language Models (VLMs) haben das Bewertungsparadigma bei Computer Vision Aufgaben verändert. Diese grundlegenden Modelle, insbesondere CLIP, haben die Forschung in Open-Vocabulary Computer Vision Aufgaben, einschließlich Open-Vocabulary Semantic Segmentation (OVSS), beschleunigt. Obwohl die anfänglichen Ergebnisse vielversprechend sind, erfordern die dichten Vorhersagefähigkeiten von VLMs noch weitere Verbesserungen. In dieser Studie verbessern wir die semantische Segmentierungsleistung von CLIP, indem wir neue Module und Modifikationen einführen: 1) architektonische Änderungen in der letzten Schicht von ViT und die Integration von Aufmerksamkeitskarten aus den mittleren Schichten mit der letzten Schicht, 2) Bildtechnik: Anwendung von Datenveränderungen zur Anreicherung von Eingabebildrepräsentationen, und 3) Verwendung von Large Language Models (LLMs) zur Generierung von Definitionen und Synonymen für jeden Klassennamen, um die Open-Vocabulary Fähigkeiten von CLIP zu nutzen. Unsere trainingsfreie Methode, ITACLIP, übertrifft aktuelle State-of-the-Art Ansätze bei Segmentierungsbenchmarks wie COCO-Stuff, COCO-Object, Pascal Context und Pascal VOC. Unser Code ist verfügbar unter https://github.com/m-arda-aydn/ITACLIP.
Dieses Papier untersucht das sich rasch entwickelnde Ökosystem öffentlich verfügbarer KI-Modelle und deren potenzielle Auswirkungen auf die Sicherheits- und Sicherheitslandschaft. Mit der zunehmenden Verbreitung von KI-Modellen ist es entscheidend, ihre potenziellen Risiken und Schwachstellen zu verstehen. Wir überprüfen die aktuellen Sicherheits- und Sicherheitsszenarien und heben Herausforderungen wie Tracking-Probleme, Fehlerbehebung und das offensichtliche Fehlen von KI-Modell-Lebenszyklus- und Eigentumsprozessen hervor. Es werden umfassende Strategien zur Verbesserung der Sicherheit und Sicherheit für sowohl Modellentwickler als auch Endbenutzer vorgeschlagen. Dieses Papier zielt darauf ab, einige der grundlegenden Elemente für eine standardisierte Sicherheit, Sicherheit und Transparenz bei der Entwicklung und dem Betrieb von KI-Modellen sowie den größeren offenen Ökosystemen und Gemeinschaften, die sich um sie bilden, bereitzustellen.
Die dynamische Manipulation in der Hand bleibt eine anspruchsvolle Aufgabe für weiche Robotersysteme, die Vorteile bei sicheren, nachgiebigen Interaktionen gezeigt haben, aber Schwierigkeiten bei hochdynamischen Aufgaben haben. In dieser Arbeit präsentieren wir SWIFT, ein System zum Erlernen dynamischer Aufgaben unter Verwendung einer weichen und nachgiebigen Roboterhand. Im Gegensatz zu früheren Arbeiten, die auf Simulation, quasi-statischen Aktionen und präzisen Objektmodellen basieren, lernt das vorgeschlagene System, einen Stift durch Ausprobieren zu drehen, wobei nur reale Daten verwendet werden, ohne explizites Vorwissen über die physikalischen Eigenschaften des Stifts zu benötigen. Mit selbstbeschrifteten Versuchen, die aus der realen Welt entnommen wurden, entdeckt das System die Gruppe von Parametern für das Greifen und Drehen des Stifts, die es einer weichen Hand ermöglichen, einen Stift robust und zuverlässig zu drehen. Nach 130 ausprobierten Aktionen pro Objekt erreicht SWIFT eine Erfolgsrate von 100 % bei drei Stiften mit unterschiedlichen Gewichten und Gewichtsverteilungen, was die Generalisierbarkeit des Systems und seine Robustheit gegenüber Änderungen der Objekteigenschaften zeigt. Die Ergebnisse verdeutlichen das Potenzial von weichen robotischen Endeffektoren, dynamische Aufgaben wie schnelle Manipulationen in der Hand auszuführen. Wir zeigen auch, dass SWIFT auf das Drehen von Gegenständen mit unterschiedlichen Formen und Gewichten wie einem Pinsel und einem Schraubendreher generalisiert, wobei Erfolgsraten von 10/10 bzw. 5/10 erzielt werden. Videos, Daten und Code sind unter https://soft-spin.github.io verfügbar.
Bestehende Methoden zur Bewertung der Bildqualität (IQA) erzielen bemerkenswerte Erfolge bei der Analyse der Gesamtbildqualität, aber nur wenige Arbeiten untersuchen die Qualitätsanalyse für Regionen von Interesse (ROIs). Die Qualitätsanalyse von ROIs kann detaillierte Anleitungen für die Verbesserung der Bildqualität liefern und ist entscheidend für Szenarien, die sich auf die Qualität auf Regionsebene konzentrieren. Dieser Artikel schlägt ein neuartiges Netzwerk, SEAGULL, vor, das ROIs-Qualität sehen und bewerten kann, mit Unterstützung eines großen Vision-Sprachmodells. SEAGULL integriert ein Vision-Sprachmodell (VLM), Masken, die von einem Modell zur Segmentierung beliebiger Objekte (SAM) generiert werden, um ROIs zu spezifizieren, und einen sorgfältig entworfenen maskenbasierten Merkmalsextraktor (MFE), um globale und lokale Token für spezifizierte ROIs zu extrahieren, was eine präzise detaillierte IQA für ROIs ermöglicht. Darüber hinaus konstruiert dieser Artikel zwei ROI-basierte IQA-Datensätze, SEAGULL-100w und SEAGULL-3k, für das Training und die Bewertung von ROI-basierter IQA. SEAGULL-100w umfasst etwa 100w synthetische Verzerrungsbilder mit 33 Millionen ROIs für das Vor-Training, um die Fähigkeit des Modells zur regionalen Qualitätswahrnehmung zu verbessern, und SEAGULL-3k enthält etwa 3k authentische Verzerrungs-ROIs, um die Fähigkeit des Modells zur Wahrnehmung von realen Verzerrungen zu stärken. Nach dem Vor-Training auf SEAGULL-100w und dem Feintuning auf SEAGULL-3k zeigt SEAGULL bemerkenswerte Leistungen bei der detaillierten Bewertung der ROI-Qualität. Code und Datensätze sind öffentlich verfügbar unter https://github.com/chencn2020/Seagull.
Große Sprachmodelle (LLMs) auf Basis von Transformer-Architekturen haben eine Vielzahl von Bereichen revolutioniert, wobei die Tokenisierung eine entscheidende Rolle in ihren Vorverarbeitungs- und Feinabstimmungsphasen spielt. Bei mehrsprachigen Modellen, insbesondere solchen, die für Indische Sprachen maßgeschneidert sind, ist eine effektive Tokenisierung entscheidend für die Optimierung der Leistung. Dieser Artikel präsentiert eine umfassende Bewertung der Tokenizer, die von 12 LLMs in allen 22 offiziellen Sprachen Indiens verwendet werden, wobei der Schwerpunkt auf dem Vergleich der Effizienz ihrer Tokenisierungsprozesse liegt. Wir haben die Normalisierte Sequenzlänge (NSL) als wichtige Metrik in unserer Analyse verwendet. Unsere Ergebnisse zeigen, dass der SUTRA-Tokenizer alle anderen Modelle übertrifft, einschließlich mehrerer Indisch-spezifischer Modelle, und in 14 Sprachen herausragt. Bemerkenswerte Erkenntnisse umfassen die überlegene Handhabung von Indischen Sprachen durch den SUTRA-Tokenizer, den Fortschritt von GPT-4o gegenüber seinem Vorgänger GPT-4 bei der Verarbeitung Indischer Sprachen und die begrenzte Leistung von Project Indus in bestimmten Sprachen. Diese Studie unterstreicht die entscheidende Bedeutung der Entwicklung zielgerichteter Tokenisierungsstrategien für mehrsprachige und Indisch-zentrierte Modelle und legt den Grundstein für zukünftige Verbesserungen im Design von Tokenizern, um die sprachliche Abdeckung und die Modelleffizienz zu verbessern.