Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Retrieval-gestützte Generierung (RAG) hat sich als Verbesserung der Wissensfähigkeiten erwiesen und das Halluzinationsproblem von LLMs gelindert. Das Web ist eine wichtige Quelle externen Wissens, die in RAG-Systemen verwendet wird, und viele kommerzielle Systeme wie ChatGPT und Perplexity haben Web-Suchmaschinen als ihre Hauptretrieval-Systeme genutzt. Typischerweise rufen solche RAG-Systeme Suchergebnisse ab, laden die HTML-Quellen der Ergebnisse herunter und extrahieren dann Klartexte aus den HTML-Quellen. Klartextdokumente oder -abschnitte werden den LLMs zugeführt, um die Generierung zu ergänzen. Allerdings geht ein Großteil der strukturellen und semantischen Informationen, die in HTML enthalten sind, wie Überschriften und Tabellenstrukturen, während dieses klartextbasierten RAG-Prozesses verloren. Um dieses Problem zu lindern, schlagen wir HtmlRAG vor, das HTML anstelle von Klartext als das Format des abgerufenen Wissens in RAG verwendet. Wir sind der Meinung, dass HTML besser als Klartext geeignet ist, um Wissen in externen Dokumenten zu modellieren, und die meisten LLMs verfügen über robuste Fähigkeiten, um HTML zu verstehen. Die Verwendung von HTML bringt jedoch neue Herausforderungen mit sich. HTML enthält zusätzliche Inhalte wie Tags, JavaScript und CSS-Spezifikationen, die zusätzliche Eingabetoken und Rauschen in das RAG-System bringen. Um dieses Problem anzugehen, schlagen wir HTML-Reinigungs-, Komprimierungs- und Beschneidungsstrategien vor, um das HTML zu verkürzen und den Informationsverlust zu minimieren. Speziell entwerfen wir eine zweistufige blockbaum-basierte Beschneidungsmethode, die nutzlose HTML-Blöcke beschneidet und nur den relevanten Teil des HTML beibehält. Experimente mit sechs QA-Datensätzen bestätigen die Überlegenheit der Verwendung von HTML in RAG-Systemen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Verallgemeinerungs- und Anweisungsfolgefähigkeiten mit Anweisungsabstimmung gezeigt. Die Fortschritte bei LLMs und Anweisungsabstimmung haben zur Entwicklung großer Bild-Sprach-Modelle (LVLMs) geführt. Die Kompetenz der LLMs und Anweisungsabstimmung wurde jedoch im molekularen Bereich weniger erforscht. Daher schlagen wir LLaMo vor: Large Language Model-basierte molekulare Graph-Assistent, der ein end-to-end trainiertes großes molekulares Graph-Sprachmodell ist. Um die Diskrepanz zwischen den Sprach- und Graphmodalitäten zu überbrücken, präsentieren wir den mehrstufigen Graphprojektor, der Graphdarstellungen in Graph-Token umwandelt, indem er die Ausgabedarstellungen jeder GNN-Schicht und Motivdarstellungen mit dem Kreuz-Aufmerksamkeitsmechanismus abstrahiert. Wir führen auch maschinengenerierte molekulare Graph-Anweisungsdaten ein, um das große molekulare Graph-Sprachmodell für das allgemeine Verständnis von Molekülen und Sprache anzupassen. Unsere umfangreichen Experimente zeigen, dass LLaMo die beste Leistung bei verschiedenen Aufgaben wie der Generierung von molekularer Beschreibung, Eigenschaftsvorhersage und IUPAC-Namensvorhersage zeigt. Der Code von LLaMo ist verfügbar unter https://github.com/mlvlab/LLaMo.
Die zunehmenden Fähigkeiten großer generativer Modelle und ihre immer weiter verbreitete Anwendung haben Bedenken hinsichtlich ihrer Zuverlässigkeit, Sicherheit und potenziellen Missbrauchs aufgeworfen. Um diese Probleme anzugehen, wurden in jüngsten Arbeiten Vorschläge gemacht, die Modellgenerierung zu steuern, indem Modellaktivierungen gelenkt werden, um effektiv das Entstehen oder Verhindern von Konzepten oder Verhaltensweisen in der generierten Ausgabe zu bewirken. In diesem Artikel stellen wir Activation Transport (AcT) vor, ein allgemeines Rahmenwerk zur Steuerung von Aktivierungen, das von der optimalen Transporttheorie geleitet wird und viele frühere Aktivierungssteuerungsarbeiten verallgemeinert. AcT ist modalitätsunabhängig und ermöglicht eine fein abgestimmte Steuerung des Modellverhaltens mit vernachlässigbarem Rechenaufwand, wobei die Modellfähigkeiten minimal beeinträchtigt werden. Wir zeigen experimentell die Wirksamkeit und Vielseitigkeit unseres Ansatzes, indem wir zentrale Herausforderungen bei großen Sprachmodellen (LLMs) und Text-zu-Bild-Diffusionsmodellen (T2Is) angehen. Bei LLMs zeigen wir, dass AcT Toxizität effektiv mildern, beliebige Konzepte induzieren und ihre Wahrhaftigkeit erhöhen kann. Bei T2Is zeigen wir, wie AcT eine fein abgestimmte Stilsteuerung und Konzeptnegation ermöglicht.
Aktuelle Visionssysteme weisen in der Regel fest definierte Darstellungen für Bilder zu, unabhhängig vom Informationsgehalt. Dies steht im Gegensatz zur menschlichen Intelligenz - und sogar zu großen Sprachmodellen - die je nach Entropie, Kontext und Vertrautheit variierende Darstellungskapazitäten zuweisen. Inspiriert davon schlagen wir einen Ansatz vor, um variable Token-Darstellungen für 2D-Bilder zu erlernen. Unsere Encoder-Decoder-Architektur verarbeitet rekursiv 2D-Bild-Tokens und destilliert sie in 1D-Latent-Tokens über mehrere Iterationen von wiederkehrenden Durchläufen. Jede Iteration verfeinert die 2D-Tokens, aktualisiert die bestehenden 1D-Latent-Tokens und erhöht adaptiv die Darstellungskapazität durch Hinzufügen neuer Tokens. Dies ermöglicht die Kompression von Bildern in eine variable Anzahl von Tokens, von 32 bis 256. Wir validieren unseren Tokenizer anhand von Rekonstruktionsverlust und FID-Metriken und zeigen, dass die Anzahl der Tokens mit der Bildentropie, Vertrautheit und den Anforderungen der nachgelagerten Aufgaben übereinstimmt. Die wiederkehrende Token-Verarbeitung mit zunehmender Darstellungskapazität in jeder Iteration zeigt Anzeichen von Token-Spezialisierung und offenbart Potenzial für die Entdeckung von Objekten / Teilen.
MLLMs haben bemerkenswerte Verständnis- und Schlussfolgerungsfähigkeiten bei komplexen Sprach- und visuellen Daten gezeigt. Diese Fortschritte haben die Vision vorangetrieben, einen generalistischen robotischen MLLM zu etablieren, der komplexe menschliche Anweisungen versteht und verschiedene körperliche Aufgaben erfüllen kann. Die Entwicklung von MLLMs für reale Roboter ist jedoch herausfordernd aufgrund der in der Regel begrenzten Rechen- und Speicherkapazitäten auf Roboterplattformen. Im Gegensatz dazu erfordert die Inferenz von MLLMs das Speichern von Milliarden von Parametern und die Durchführung enormer Berechnungen, was erhebliche Hardwareanforderungen mit sich bringt. In unserem Paper schlagen wir ein Dynamisches Frühabbruch-Framework für das Roboter-Vision-Sprache-Aktion-Modell (DeeR-VLA oder einfach DeeR) vor, das automatisch die Größe des aktivierten MLLM basierend auf jeder vorliegenden Situation anpasst. Der Ansatz nutzt eine Multi-Exit-Architektur in MLLMs, die es dem Modell ermöglicht, die Verarbeitung zu beenden, sobald eine angemessene Größe des Modells für eine spezifische Situation aktiviert wurde, um so weitere redundante Berechnungen zu vermeiden. Zusätzlich entwickeln wir neuartige Algorithmen, die Frühabbruchkriterien für DeeR festlegen, abhängig von vordefinierten Anforderungen wie durchschnittlichen Rechenkosten (d. h. Leistungsverbrauch), sowie Spitzenrechenverbrauch (d. h. Latenz) und GPU-Speicherauslastung. Diese Verbesserungen gewährleisten, dass DeeR effizient unter variablen Ressourcenbeschränkungen arbeitet und dabei eine wettbewerbsfähige Leistung beibehält. Im CALVIN-Roboter-Manipulationsbenchmark zeigt DeeR signifikante Reduzierungen der Rechenkosten des MLLM um das 5,2-6,5-fache und des GPU-Speichers des MLLM um das 2-6-fache, ohne die Leistung zu beeinträchtigen. Der Code und die Checkpoints sind unter https://github.com/yueyang130/DeeR-VLA verfügbar.
Wir untersuchen Methoden zur effizienten Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen unter Berücksichtigung eines budgetierten Online-Feedbacks. Zunächst formulieren wir das LLM-Ausrichtungsproblem im Rahmen von kontextuellen Duell-Banditen. Diese Formulierung, die jüngste Paradigmen wie Online-RLHF und Online-DPO umfasst, zielt grundsätzlich auf sample-effiziente Algorithmen ab, die eine Online-aktive Exploration integrieren. Unter Nutzung von Erkenntnissen aus der Banditentheorie stellen wir einen vereinheitlichten Algorithmus auf der Basis von Thompson-Sampling vor und heben dessen Anwendungen in zwei unterschiedlichen Szenarien der LLM-Ausrichtung hervor. Der praktische Agent, der diesen Algorithmus effizient implementiert und SEA (Sample-Efficient Alignment) genannt wird, wird empirisch durch umfangreiche Experimente über drei Modellskalen (1B, 2,8B, 6,9B) und drei Präferenzlernalgorithmen (DPO, IPO, SLiC) validiert. Die Ergebnisse zeigen, dass SEA eine äußerst sample-effiziente Ausrichtung mit den Präferenzen des Orakels erreicht und dabei aktuelle Algorithmen zur aktiven Exploration für LLMs übertrifft. Darüber hinaus veröffentlichen wir die Implementierung von SEA zusammen mit einer effizienten Codebasis, die für die Online-Ausrichtung von LLMs entwickelt wurde, mit dem Ziel, zukünftige Forschung in diesem Bereich zu beschleunigen.
Wir stellen DreamPolish vor, ein Text-zu-3D-Generierungsmodell, das sich durch die Erzeugung raffinierter Geometrie und hochwertiger Texturen auszeichnet. In der Geometriekonstruktionsphase nutzt unser Ansatz mehrere neuronale Repräsentationen, um die Stabilität des Syntheseprozesses zu verbessern. Anstatt sich ausschließlich auf eine ansichtskonditionierte Diffusionspriorität in den neuartig abgetasteten Ansichten zu verlassen, die oft zu unerwünschten Artefakten auf der geometrischen Oberfläche führt, integrieren wir einen zusätzlichen Normalenschätzer, um die Geometriedetails zu verfeinern, abhängig von Blickwinkeln mit unterschiedlichen Sichtfeldern. Wir schlagen vor, eine Oberflächenpolierungsstufe mit nur wenigen Trainingsschritten hinzuzufügen, die effektiv die Artefakte verfeinert, die auf eine begrenzte Anleitung aus früheren Phasen zurückzuführen sind, und 3D-Objekte mit wünschenswerterer Geometrie zu erzeugen. Das Hauptthema der Texturerzeugung unter Verwendung von vorab trainierten Text-zu-Bild-Modellen besteht darin, eine geeignete Domäne in der umfangreichen latenten Verteilung dieser Modelle zu finden, die fotorealistische und konsistente Darstellungen enthält. In der Texturerzeugungsphase führen wir ein neuartiges Score-Destillationsziel ein, nämlich die Domänenscore-Destillation (DSD), um neuronale Repräsentationen in Richtung einer solchen Domäne zu lenken. Wir lassen uns von der klassifiziererfreien Anleitung (CFG) bei textkonditionierten Bildgenerierungsaufgaben inspirieren und zeigen, dass CFG und Anleitung durch variational Distribution unterschiedliche Aspekte in der Gradientenanleitung darstellen und beide entscheidende Domänen für die Verbesserung der Texturqualität sind. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Modell 3D-Assets mit polierten Oberflächen und fotorealistischen Texturen erzeugen kann und dabei bestehende State-of-the-Art-Methoden übertrifft.
Neuronale implizite Funktionen haben beeindruckende Fortschritte im Stand der Technik der digitalen Erfassung bekleideter menschlicher Körper aus mehreren oder sogar einzelnen Bildern gebracht. Trotz des Fortschritts haben aktuelle Ansätze immer noch Schwierigkeiten, sich auf unbekannte Bilder mit komplexer Stoffdeformation und Körperhaltungen zu verallgemeinern. In dieser Arbeit präsentieren wir GarVerseLOD, einen neuen Datensatz und ein Framework, das den Weg ebnet, eine beispiellose Robustheit bei der hochwertigen 3D-Kleidungsrekonstruktion aus einem einzigen unbeschränkten Bild zu erreichen. Inspiriert vom jüngsten Erfolg großer generativer Modelle glauben wir, dass ein Schlüssel zur Bewältigung der Generalisierungsherausforderung in der Menge und Qualität von 3D-Kleidungsdaten liegt. Zu diesem Zweck sammelt GarVerseLOD 6.000 hochwertige Kleidermodelle mit feingliedrigen geometrischen Details, die von professionellen Künstlern manuell erstellt wurden. Neben dem Umfang der Trainingsdaten stellen wir fest, dass die Existenz entwirrter Granularitäten der Geometrie eine wichtige Rolle bei der Steigerung der Generalisierungsfähigkeit und Inferenzgenauigkeit des gelernten Modells spielen kann. Daher gestalten wir GarVerseLOD als hierarchischen Datensatz mit Detailstufen (LOD), die von detailfreier stilisierter Form bis hin zu posegemischter Kleidung mit pixelgenauen Details reichen. Dies ermöglicht es uns, dieses stark unterbestimmte Problem handhabbar zu machen, indem wir die Inferenz in einfachere Aufgaben aufteilen, von denen jede mit einem kleineren Suchraum eingeschränkt ist. Um sicherzustellen, dass GarVerseLOD gut auf Bilder aus der Wildnis verallgemeinern kann, schlagen wir ein neuartiges Beschriftungsparadigma basierend auf bedingten Diffusionsmodellen vor, um umfangreiche gepaarte Bilder für jedes Kleidungsmodell mit hoher Fotorealität zu generieren. Wir evaluieren unsere Methode an einer großen Anzahl von Bildern aus der Wildnis. Experimentelle Ergebnisse zeigen, dass GarVerseLOD eigenständige Kleidungsstücke mit signifikant besserer Qualität als bisherige Ansätze generieren kann. Projektseite: https://garverselod.github.io/
Vision Language Models (VLMs) haben starke Fähigkeiten in verschiedenen visuellen Verständnis- und Schlussfolgerungsaufgaben gezeigt. Ihre praktische Anwendung wird jedoch oft durch hohe Latenzzeiten während der Inferenz aufgrund des erheblichen Rechenaufwands eingeschränkt, der erforderlich ist, um die große Anzahl von Eingabetokens (hauptsächlich aus dem Bild) durch das LLM zu verarbeiten. Um die Inferenzkosten zu reduzieren, kann man entweder das LLM verkleinern oder die Anzahl der Eingabe-Bildtokens reduzieren, wobei letzteres im Fokus vieler aktueller Arbeiten zur Token-Kompression steht. Es ist jedoch unklar, was der optimale Kompromiss ist, da beide Faktoren die Leistung des VLM direkt beeinflussen. Wir charakterisieren zunächst diesen optimalen Kompromiss zwischen der Anzahl der visuellen Tokens und den LLM-Parametern, indem wir Skalierungsgesetze etablieren, die Variationen in der Leistung mit diesen beiden Faktoren erfassen. Unsere Ergebnisse zeigen einen überraschenden Trend: Für visuelle Schlussfolgerungsaufgaben wird das inferenzoptimale Verhalten in VLMs, d.h. minimale Fehler in der Nachbearbeitung bei einem festgelegten Inferenzrechenaufwand, erreicht, wenn das größte LLM verwendet wird, das im Inferenzbudget liegt, während die Anzahl der visuellen Tokens minimiert wird - oft auf ein einzelnes Token. Während sich die Literatur zur Token-Reduktion hauptsächlich darauf konzentriert hat, die Leistung des Basismodells durch eine moderate Reduzierung der Tokenanzahl (z.B. 5-10 Mal) zu erhalten, zeigen unsere Ergebnisse, dass das rechenoptimale Inferenzregime den Betrieb unter noch höheren Token-Kompressionsverhältnissen erfordert. Basierend auf diesen Erkenntnissen unternehmen wir erste Schritte hin zur Entwicklung von Ansätzen, die für Einstellungen mit hoher Token-Kompression maßgeschneidert sind. Der Code ist verfügbar unter https://github.com/locuslab/llava-token-compression.
Seltene Krankheiten stellen einzigartige Herausforderungen im Gesundheitswesen dar, die oft unter verzögerter Diagnose und fragmentierten Informationslandschaften leiden. Die Knappheit an zuverlässigem Wissen über diese Zustände stellt eine besondere Herausforderung für Große Sprachmodelle (LLMs) dar, um das klinische Management zu unterstützen und präzise Patienteninformationen bereitzustellen, was die Notwendigkeit einer gezielten Schulung zu diesen 'Zebra'-Fällen unterstreicht. Wir stellen Zebra-Llama vor, ein spezialisiertes kontextbewusstes Sprachmodell mit hoher Präzision in der abrufgestützten Generierung (RAG), das sich auf das Ehlers-Danlos-Syndrom (EDS) als Fallstudie konzentriert. EDS, das 1 von 5.000 Personen betrifft, veranschaulicht die Komplexitäten seltener Krankheiten mit ihren vielfältigen Symptomen, verschiedenen Unterarten und sich entwickelnden diagnostischen Kriterien. Durch die Implementierung einer neuartigen kontextbewussten Feinabstimmungsmethodik, die auf Fragen aus der medizinischen Literatur, Patientenerfahrungen und klinischen Ressourcen basiert, zusammen mit sorgfältig kuratierten Antworten, zeigt Zebra-Llama beispiellose Fähigkeiten bei der Bewältigung von EDS-bezogenen Anfragen. Anhand eines Testsets von realen Fragen, die von EDS-Patienten und Klinikern gesammelt wurden, bewerteten medizinische Experten die Antworten, die von beiden Modellen generiert wurden, und enthüllten signifikante Verbesserungen von Zebra-Llama gegenüber dem Basismodell (Llama 3.1-8B-Instruct) in Bezug auf Gründlichkeit (77,5 % vs. 70,1 %), Genauigkeit (83,0 % vs. 78,8 %), Klarheit (74,7 % vs. 72,0 %) und Zitierbarkeit (70,6 % vs. 52,3 %). Als Open-Source-Ressource veröffentlicht, bietet Zebra-Llama nicht nur zugänglichere und verlässlichere EDS-Informationen, sondern legt auch den Grundstein für die Entwicklung spezialisierter KI-Lösungen für andere seltene Erkrankungen. Diese Arbeit stellt einen entscheidenden Schritt zur Demokratisierung von Expertenwissen im Management seltener Krankheiten dar und könnte möglicherweise verändern, wie Gesundheitsdienstleister und Patienten sich in der komplexen Landschaft seltener Krankheiten zurechtfinden.
Mit der kontinuierlichen Weiterentwicklung von Objekterkennungstechniken wird das Verständnis ihrer Beziehungen zu ergänzenden visuellen Aufgaben entscheidend für die Optimierung von Modellarchitekturen und Rechenressourcen. Diese Arbeit untersucht die Korrelationen zwischen der Genauigkeit der Objekterkennung und zwei grundlegenden visuellen Aufgaben: Tiefenschätzung und visuelle Auffälligkeitsschätzung. Durch umfassende Experimente mit modernsten Modellen (DeepGaze IIE, Depth Anything, DPT-Large und Itti's Modell) auf COCO- und Pascal VOC-Datensätzen stellen wir fest, dass die visuelle Auffälligkeit im Vergleich zur Tiefenschätzung (mArho bis zu 0,283) konsistent stärkere Korrelationen mit der Genauigkeit der Objekterkennung aufweist (mArho bis zu 0,459 auf Pascal VOC). Unsere Analyse zeigt signifikante Variationen in diesen Korrelationen zwischen Objektkategorien, wobei größere Objekte Korrelationswerte aufweisen, die bis zu drei Mal höher sind als bei kleineren Objekten. Diese Ergebnisse legen nahe, dass die Integration von visuellen Auffälligkeitsmerkmalen in Objekterkennungsarchitekturen möglicherweise vorteilhafter ist als Tiefeninformationen, insbesondere für bestimmte Objektkategorien. Die beobachteten kategoriespezifischen Variationen bieten auch Einblicke für gezielte Merkmalsentwicklung und Verbesserungen im Datensatzdesign, die potenziell zu effizienteren und genaueren Objekterkennungssystemen führen können.