Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die subjektgesteuerte Text-zu-Bild-Erzeugung zielt darauf ab, Bilder eines neuen Subjekts in einem gewünschten Kontext zu erstellen, indem sowohl die visuellen Merkmale des Subjekts als auch der semantische Inhalt einer Textvorgabe präzise erfasst werden. Traditionelle Methoden verlassen sich auf zeit- und ressourcenintensives Feintuning für die Ausrichtung des Subjekts, während aktuelle Zero-Shot-Ansätze die Bildvorgabe im Flug nutzen, wobei oft die Ausrichtung des Subjekts geopfert wird. In diesem Papier stellen wir Diptych Prompting vor, einen neuartigen Zero-Shot-Ansatz, der die emergente Eigenschaft der Diptychon-Erzeugung in groß angelegten Text-zu-Bild-Modellen nutzt, um eine präzise Ausrichtung des Subjekts als Ausbesserungsaufgabe neu zu interpretieren. Diptych Prompting ordnet ein unvollständiges Diptychon mit dem Referenzbild im linken Panel an und führt eine textkonditionierte Ausbesserung im rechten Panel durch. Wir verhindern zusätzlich unerwünschtes Inhaltsleck durch Entfernen des Hintergrunds im Referenzbild und verbessern feingliedrige Details im generierten Subjekt, indem wir die Aufmerksamkeitsgewichte zwischen den Panels während der Ausbesserung verstärken. Experimentelle Ergebnisse bestätigen, dass unser Ansatz signifikant besser abschneidet als Zero-Shot-Bildvorgabe-Methoden und zu Bildern führt, die von Benutzern visuell bevorzugt werden. Darüber hinaus unterstützt unsere Methode nicht nur die subjektgesteuerte Erzeugung, sondern auch die stilisierte Bildgenerierung und die subjektgesteuerte Bildbearbeitung, was die Vielseitigkeit in verschiedenen Bildgenerierungsanwendungen zeigt. Projektseite: https://diptychprompting.github.io/
Diese Forschung stellt ein neuartiges Bewertungsrahmen vor, der entwickelt wurde, um die Fähigkeit großer Sprachmodelle (LLMs) zu bewerten, Unsicherheit bei 675 grundsätzlich unlösbaren Problemen anzuerkennen. Unter Verwendung eines kuratierten Datensatzes von Fragen auf Graduiertenniveau mit absichtlich unbekannten Antworten haben wir zwölf hochmoderne LLMs bewertet, einschließlich sowohl Open-Source- als auch Closed-Source-Modelle, hinsichtlich ihrer Neigung, Unwissenheit zuzugeben, anstatt plausible, aber falsche Antworten zu generieren. Die besten Modelle erzielten Genauigkeitsbereiche von 62-68% für die Anerkennung, dass die Lösung des Problems unbekannt war, in Bereichen von Biologie über Philosophie bis hin zu Mathematik. Wir beobachteten eine umgekehrte Beziehung zwischen der Schwierigkeit des Problems und der Modellgenauigkeit, wobei GPT-4 höhere Raten der Unsicherheitsanerkennung bei anspruchsvolleren Problemen (35,8%) im Vergleich zu einfacheren (20,0%) aufwies. Dieses Muster deutet darauf hin, dass Modelle dazu neigen könnten, spekulative Antworten zu generieren, wenn Probleme scheinbar lösbar erscheinen. Die Studie zeigte auch signifikante Variationen zwischen Problemkategorien, wobei Modelle Schwierigkeiten hatten, Unsicherheit bei Erfindungs- und NP-schweren Problemen anzuerkennen, während sie relativ besser bei philosophischen und psychologischen Herausforderungen abschnitten. Diese Ergebnisse tragen zur wachsenden Forschung im Bereich der künstlichen allgemeinen Intelligenz (AGI) bei, indem sie die Bedeutung der Anerkennung von Unsicherheit als entscheidende Komponente für die zukünftige Bewertung maschineller Intelligenz hervorheben. Dieser Unmöglichkeitstest erweitert somit frühere theoretische Rahmenbedingungen für den Test universeller Intelligenz, indem er empirische Beweise für aktuelle Einschränkungen in der Fähigkeit von LLMs zur Erkennung ihrer eigenen Wissensgrenzen liefert und neue Wege zur Verbesserung von Modelltrainingsarchitekturen und Bewertungsansätzen aufzeigt.
Wir präsentieren Material Anything, ein vollautomatisiertes, einheitliches Diffusions-Framework, das entwickelt wurde, um physikalisch basierte Materialien für 3D-Objekte zu generieren. Im Gegensatz zu bestehenden Methoden, die auf komplexen Pipelines oder fallabhängigen Optimierungen beruhen, bietet Material Anything eine robuste, end-to-end Lösung, die an Objekte unter verschiedenen Beleuchtungsbedingungen anpassbar ist. Unser Ansatz nutzt ein vortrainiertes Bild-Diffusionsmodell, das mit einer Triple-Head-Architektur und Rendervariationen verbessert wurde, um Stabilität und Materialqualität zu erhöhen. Darüber hinaus führen wir Vertrauensmasken als dynamischen Schalter innerhalb des Diffusionsmodells ein, um es zu ermöglichen, sowohl texturierte als auch texturlose Objekte unter unterschiedlichen Beleuchtungsbedingungen effektiv zu handhaben. Durch die Anwendung einer progressiven Materialgenerierungsstrategie, die von diesen Vertrauensmasken geleitet wird, zusammen mit einem UV-Raum-Materialverfeiner, gewährleistet unsere Methode konsistente, UV-bereite Materialausgaben. Umfangreiche Experimente zeigen, dass unser Ansatz bestehende Methoden in einer Vielzahl von Objektkategorien und Beleuchtungsbedingungen übertrifft.
Dieses Paper präsentiert eine kritische Untersuchung der aktuellen Ansätze zur Replikation der Fähigkeiten des O1-Modells von OpenAI, wobei der weit verbreiteten, aber oft unerwähnten Verwendung von Wissensdestillations-Techniken besondere Aufmerksamkeit geschenkt wird. Während unsere vorherige Arbeit den grundlegenden technischen Pfad zur Replikation von O1 erforschte, zeigt diese Studie, wie einfache Destillation aus der API von O1 in Kombination mit überwachtem Feintuning eine überlegene Leistung bei komplexen mathematischen Denkaufgaben erzielen kann. Durch umfangreiche Experimente zeigen wir, dass ein Basismodell, das einfach auf Zehntausenden von O1-destillierten Proben feinabgestimmt wurde, O1-Vorschauen bei der American Invitational Mathematics Examination (AIME) mit minimaler technischer Komplexität übertrifft. Darüber hinaus erstreckt sich unsere Untersuchung über mathematisches Denken hinaus, um die Verallgemeinerungsfähigkeiten von O1-destillierten Modellen über verschiedene Aufgaben hinweg zu erkunden: Halluzination, Sicherheit und Open-Domain-Fragen und Antworten. Bemerkenswert ist, dass unsere Modelle trotz des Trainings nur auf mathematischen Problemlösungsdaten eine starke Verallgemeinerungsfähigkeit für offene Fragen und Antworten zeigten und nach dem Feintuning deutlich weniger anfällig für Schmeichelei wurden. Wir machen diese Erkenntnis bewusst öffentlich, um die Transparenz in der KI-Forschung zu fördern und den aktuellen Trend verschleierter technischer Behauptungen in diesem Bereich herauszufordern. Unsere Arbeit umfasst: (1) Eine detaillierte technische Darstellung des Destillationsprozesses und seiner Wirksamkeit, (2) Ein umfassendes Benchmark-Framework zur Bewertung und Kategorisierung von O1-Replikationsversuchen basierend auf ihrer technischen Transparenz und Reproduzierbarkeit, (3) Eine kritische Diskussion der Einschränkungen und potenziellen Risiken einer übermäßigen Nutzung von Destillationsansätzen. Unsere Analyse mündet in einer entscheidenden bitteren Lektion: Während die Verfolgung leistungsfähigerer KI-Systeme wichtig ist, ist die Entwicklung von Forschern, die auf erstprinzipiellem Denken basieren, von höchster Bedeutung.
Bewertung und Evaluierung waren schon lange kritische Herausforderungen in der künstlichen Intelligenz (KI) und der natürlichen Sprachverarbeitung (NLP). Allerdings reichen herkömmliche Methoden, ob auf Übereinstimmungen basierend oder auf Einbettungen basierend, oft nicht aus, um subtile Merkmale zu beurteilen und zufriedenstellende Ergebnisse zu liefern. Die jüngsten Fortschritte bei Large Language Models (LLMs) inspirieren das Paradigma "LLM-als-Richter", bei dem LLMs genutzt werden, um Bewertungen, Rangfolgen oder Auswahl in verschiedenen Aufgaben und Anwendungen durchzuführen. Dieses Papier bietet eine umfassende Übersicht über die auf LLMs basierende Bewertung und Beurteilung und bietet einen eingehenden Überblick, um dieses aufstrebende Gebiet voranzubringen. Wir beginnen mit detaillierten Definitionen aus Eingabe- und Ausgabeperspektiven. Dann führen wir eine umfassende Taxonomie ein, um LLM-als-Richter aus drei Dimensionen zu erkunden: was zu beurteilen ist, wie zu beurteilen ist und wo zu beurteilen ist. Schließlich stellen wir Benchmarks für die Evaluierung von LLM-als-Richter zusammen und heben Schlüsselherausforderungen und vielversprechende Richtungen hervor, um wertvolle Einblicke zu bieten und zukünftige Forschung in diesem vielversprechenden Forschungsbereich zu inspirieren. Eine Liste von Papieren und weitere Ressourcen zum Thema LLM-als-Richter finden Sie unter https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge und https://llm-as-a-judge.github.io.
Trotz bedeutender Fortschritte in der allgemeinen künstlichen Intelligenz, wie beispielsweise GPT-4, bleibt deren Wirksamkeit im medizinischen Bereich (allgemeine medizinische KI, GMAI) aufgrund des Mangels an spezialisiertem medizinischem Wissen eingeschränkt. Um dieser Herausforderung zu begegnen, präsentieren wir GMAI-VL-5.5M, einen umfassenden multimodalen medizinischen Datensatz, der durch die Umwandlung von Hunderten spezialisierten medizinischen Datensätzen in sorgfältig konstruierte Bild-Text-Paare erstellt wurde. Dieser Datensatz bietet eine umfassende Abdeckung von Aufgaben, verschiedene Modalitäten und hochwertige Bild-Text-Daten. Aufbauend auf diesem multimodalen Datensatz schlagen wir GMAI-VL vor, ein allgemeines medizinisches Vision-Sprachmodell mit einer progressiven dreistufigen Schulungsstrategie. Dieser Ansatz verbessert signifikant die Fähigkeit des Modells, indem visuelle und textuelle Informationen integriert werden, wodurch seine Fähigkeit zur Verarbeitung von multimodalen Daten und zur Unterstützung genauer Diagnosen und klinischer Entscheidungsfindung verbessert wird. Experimentelle Bewertungen zeigen, dass GMAI-VL Spitzenleistung in einer Vielzahl von multimodalen medizinischen Aufgaben erzielt, wie beispielsweise visuelle Fragestellungen und medizinische Bildgebung. Unsere Beiträge umfassen die Entwicklung des GMAI-VL-5.5M-Datensatzes, die Einführung des GMAI-VL-Modells und die Schaffung neuer Benchmarks in mehreren medizinischen Bereichen. Der Code und der Datensatz werden unter https://github.com/uni-medical/GMAI-VL veröffentlicht.
Hier präsentieren wir die Ergebnisse des zweiten Hackathons für Große Sprachmodelle (LLM) für Anwendungen in Materialwissenschaft und Chemie, an dem Teilnehmer an globalen Hybridstandorten teilnahmen und 34 Teambeiträge einreichten. Die Beiträge erstreckten sich über sieben Schlüsselanwendungsbereiche und zeigten die vielfältige Nützlichkeit von LLMs für Anwendungen in (1) Vorhersage molekularer und materieller Eigenschaften; (2) Entwurf von Molekülen und Materialien; (3) Automatisierung und neuartige Schnittstellen; (4) wissenschaftliche Kommunikation und Bildung; (5) Verwaltung und Automatisierung von Forschungsdaten; (6) Hypothesengenerierung und -bewertung; und (7) Wissensextraktion und Schlussfolgerungen aus wissenschaftlicher Literatur. Jeder Teambeitrag wird in einer Zusammenfassungstabelle mit Links zum Code und als kurze Papers im Anhang präsentiert. Neben den Teamergebnissen diskutieren wir das Hackathon-Event und sein Hybridformat, das physische Zentren in Toronto, Montreal, San Francisco, Berlin, Lausanne und Tokyo umfasste, sowie ein globales Online-Zentrum zur Förderung lokaler und virtueller Zusammenarbeit. Insgesamt hebt das Event signifikante Verbesserungen in den Fähigkeiten von LLMs seit dem Hackathon des Vorjahres hervor und deutet auf eine fortgesetzte Ausweitung von LLMs für Anwendungen in der Materialwissenschaft und chemischen Forschung hin. Diese Ergebnisse zeigen die doppelte Nützlichkeit von LLMs als vielseitige Modelle für verschiedene maschinelle Lernaufgaben und Plattformen für die schnelle Prototypenerstellung benutzerdefinierter Anwendungen in wissenschaftlicher Forschung auf.
Wir stellen OneDiffusion vor, ein vielseitiges, groß angelegtes Diffusionsmodell, das nahtlos bidirektionale Bildsynthese und -verständnis über verschiedene Aufgaben hinweg unterstützt. Es ermöglicht bedingte Generierung aus Eingaben wie Text, Tiefe, Pose, Layout und semantischen Karten und bewältigt auch Aufgaben wie Bildentwirren, Hochskalieren und umgekehrte Prozesse wie Tiefenschätzung und Segmentierung. Darüber hinaus ermöglicht OneDiffusion die Generierung aus mehreren Ansichten, die Schätzung der Kameraposition und die sofortige Personalisierung unter Verwendung sequenzieller Bildinputs. Unser Modell verfolgt einen einfachen, aber effektiven Ansatz, indem es alle Aufgaben als Bildsequenzen mit unterschiedlichen Rauschskalen während des Trainings behandelt, was es ermöglicht, dass jedes Bild als bedingendes Bild zur Inferenzzeit fungiert. Unser einheitlicher Trainingsrahmen eliminiert die Notwendigkeit spezialisierter Architekturen, unterstützt skalierbares Multi-Task-Training und passt sich reibungslos an jede Auflösung an, was sowohl die Verallgemeinerung als auch die Skalierbarkeit verbessert. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung über Aufgaben hinweg sowohl in der Generierung als auch in der Vorhersage, wie z.B. Text-zu-Bild, Multiview-Generierung, ID-Erhaltung, Tiefenschätzung und Kamerapositionsschätzung trotz eines relativ kleinen Trainingsdatensatzes. Unser Code und Checkpoint sind frei verfügbar unter https://github.com/lehduong/OneDiffusion
Multi-Head Mixture-of-Experts (MH-MoE) zeigt eine überlegene Leistung, indem es den Multi-Head-Mechanismus verwendet, um gemeinsam auf Informationen aus verschiedenen Repräsentationsräumen innerhalb verschiedener Experten zuzugreifen. In diesem Artikel präsentieren wir eine neuartige Implementierung von MH-MoE, die sowohl die FLOPs als auch die Parameterparität mit spärlichen Mixture-of-Experts-Modellen beibehält. Experimentelle Ergebnisse an Sprachmodellen zeigen, dass die neue Implementierung Qualitätsverbesserungen sowohl gegenüber herkömmlichen MoE- als auch feinkörnigen MoE-Modellen liefert. Darüber hinaus zeigen unsere Experimente, dass MH-MoE kompatibel mit 1-Bit-Large-Language-Modellen (LLMs) wie BitNet ist.
Die Interaktive Medizinische Bildsegmentierung (IMIS) war lange Zeit durch die begrenzte Verfügbarkeit von umfangreichen, vielfältigen und dicht annotierten Datensätzen eingeschränkt, was die Generalisierung von Modellen und die konsistente Bewertung über verschiedene Modelle hinweg behindert. In diesem Artikel stellen wir den IMed-361M Benchmark-Datensatz vor, einen bedeutenden Fortschritt in der allgemeinen IMIS-Forschung. Zunächst sammeln und standardisieren wir über 6,4 Millionen medizinische Bilder und ihre entsprechenden Ground-Truth-Masken aus mehreren Datenquellen. Anschließend nutzen wir die starken Objekterkennungsfähigkeiten eines visionären Grundlagenmodells, um automatisch dichte interaktive Masken für jedes Bild zu generieren und ihre Qualität durch strenge Qualitätskontrolle und Granularitätsmanagement sicherzustellen. Im Gegensatz zu früheren Datensätzen, die durch spezifische Modalitäten oder spärliche Annotationen begrenzt sind, umfasst IMed-361M 14 Modalitäten und 204 Segmentierungsziele, insgesamt 361 Millionen Masken - im Durchschnitt 56 Masken pro Bild. Schließlich haben wir ein IMIS-Baselinennetzwerk auf diesem Datensatz entwickelt, das die Generierung hochwertiger Masken durch interaktive Eingaben wie Klicks, Bounding Boxes, Texteingaben und deren Kombinationen unterstützt. Wir bewerten seine Leistung bei medizinischen Bildsegmentierungsaufgaben aus verschiedenen Perspektiven und zeigen eine überlegene Genauigkeit und Skalierbarkeit im Vergleich zu bestehenden interaktiven Segmentierungsmodellen. Um die Forschung an grundlegenden Modellen in der medizinischen Computer Vision zu erleichtern, veröffentlichen wir IMed-361M und das Modell unter https://github.com/uni-medical/IMIS-Bench.
Die Computertomographie (CT) ist eine der beliebtesten Modalitäten für medizinische Bildgebung. CT-Bilder haben bisher am meisten zu den größten öffentlich verfügbaren Datensätzen für volumetrische medizinische Segmentierungsaufgaben beigetragen, die vollständige anatomische Strukturen abdecken. Große Mengen an Ganzkörper-CT-Bildern bieten die Möglichkeit, leistungsstarke Modelle, z. B. STU-Net, die in überwachter Weise vorab trainiert wurden, zu segmentieren. Es ist jedoch unklar, unter welchen Bedingungen diese vorab trainierten Modelle auf verschiedene nachgelagerte medizinische Segmentierungsaufgaben übertragen werden können, insbesondere bei der Segmentierung anderer Modalitäten und unterschiedlicher Ziele. Um dieses Problem zu lösen, ist ein groß angelegter Benchmark für eine umfassende Bewertung entscheidend, um diese Bedingungen zu finden. Daher haben wir 87 öffentliche Datensätze gesammelt, die sich in Modalität, Ziel und Stichprobengröße unterscheiden, um die Transferfähigkeit von vorab trainierten Ganzkörper-CT-Modellen zu bewerten. Anschließend haben wir ein repräsentatives Modell, STU-Net mit mehreren Modellskalen, für das Transferlernen über Modalitäten und Ziele eingesetzt. Unsere experimentellen Ergebnisse zeigen, dass (1) es möglicherweise einen Engpasseffekt hinsichtlich der Datensatzgröße beim Feinabstimmen gibt, wobei eine größere Verbesserung sowohl bei kleinen als auch großen Datensätzen als bei mittelgroßen zu beobachten ist. (2) Modelle, die auf Ganzkörper-CT vorab trainiert wurden, zeigen eine effektive Modalitätsübertragung und passen sich gut an andere Modalitäten wie MRT an. (3) Das Vorabtraining auf Ganzkörper-CT unterstützt nicht nur eine starke Leistung bei der Strukturerkennung, sondern zeigt auch Wirksamkeit bei der Läsionserkennung und demonstriert Anpassungsfähigkeit über verschiedene Zielaufgaben hinweg. Wir hoffen, dass diese groß angelegte offene Bewertung des Transferlernens zukünftige Forschungen in der volumetrischen medizinischen Bildsegmentierung lenken kann.
AdamW war der Standard-Optimierer für Transformer-Pretraining. Seit vielen Jahren sucht unsere Gemeinschaft nach schnelleren und stabileren Optimierern mit ausschließlich positiven Ergebnissen. In dieser Arbeit schlagen wir eine einfache Modifikation in Pytorch für jeden auf Momentum basierenden Optimierer vor, den wir Vorsichtigen Optimierer nennen, z.B. C-AdamW und C-Lion. Unser theoretisches Ergebnis zeigt, dass diese Modifikation die Hamilton-Funktion von Adam bewahrt und die Konvergenzgarantie unter der Lyapunov-Analyse nicht beeinträchtigt. Darüber hinaus wird durch unser theoretisches Verständnis eine ganze neue Familie von Optimierern aufgedeckt. Unter ihnen wählen wir den einfachsten für empirische Experimente aus, die eine Beschleunigung beim Llama- und MAE-Pretraining um bis zu 1,47-fache zeigen. Der Code ist verfügbar unter https://github.com/kyleliang919/C-Optim
Die Generierung von Storytelling-Videos (SVG) ist kürzlich als Aufgabe entstanden, um lange, mehrere Bewegungen und Szenen umfassende Videos zu erstellen, die die Geschichte aus dem Eingabetextskript konsistent darstellen. SVG bietet ein großes Potenzial für die vielfältige Inhalte in den Bereichen Medien und Unterhaltung, birgt jedoch auch bedeutende Herausforderungen: (1) Objekte müssen eine Vielzahl feingranularer, komplexer Bewegungen aufweisen, (2) mehrere Objekte müssen konsistent über Szenen hinweg erscheinen, und (3) Subjekte können mehrere Bewegungen mit nahtlosen Übergängen innerhalb einer einzelnen Szene erfordern. Um diesen Herausforderungen zu begegnen, schlagen wir DreamRunner vor, eine neuartige Methode zur Generierung von Story-zu-Video: Zunächst strukturieren wir das Eingabetextskript mithilfe eines großen Sprachmodells (LLM), um sowohl grobgranulare Szenenplanung als auch feingranulare Layout- und Bewegungsplanung auf Objektebene zu erleichtern. Anschließend präsentiert DreamRunner eine abrufgestützte Testzeit-Anpassung, um Bewegungsprioritäten für Objekte in jeder Szene zu erfassen, die eine vielfältige Bewegungsanpassung basierend auf abgerufenen Videos unterstützen und somit die Generierung neuer Videos mit komplexen, skriptgesteuerten Bewegungen erleichtern. Schließlich schlagen wir ein neuartiges räumlich-zeitliches, regionsbasiertes 3D-Aufmerksamkeits- und Prior-Injektionsmodul SR3AI für die feingranulare Objekt-Bewegungsbindung und die semantische Steuerung framegenau vor. Wir vergleichen DreamRunner mit verschiedenen SVG-Baselines und zeigen eine erstklassige Leistung in Bezug auf Charakterkonsistenz, Textausrichtung und fließende Übergänge. Darüber hinaus zeigt DreamRunner eine starke Fähigkeit zur feingranularen Bedingungsverfolgung in der kompositorischen Text-zu-Video-Generierung und übertrifft Baselines signifikant in T2V-ComBench. Abschließend validieren wir die robuste Fähigkeit von DreamRunner, Multi-Objekt-Interaktionen anhand qualitativer Beispiele zu generieren.
Visuelle Tokenizer sind grundlegend für die Bildgenerierung. Sie wandeln visuelle Daten in diskrete Token um, was es Modellen auf Transformer-Basis ermöglicht, bei der Bildgenerierung herausragende Leistungen zu erbringen. Trotz ihres Erfolgs stehen VQ-basierte Tokenizer wie VQGAN vor erheblichen Einschränkungen aufgrund begrenzter Vokabulargrößen. Eine einfache Erweiterung des Codebuchs führt oft zu Trainingsinstabilität und nachlassender Leistungssteigerung, wodurch Skalierbarkeit zu einer entscheidenden Herausforderung wird. In dieser Arbeit stellen wir die faktorisierte Quantisierung (FQ) vor, einen neuartigen Ansatz, der VQ-basierte Tokenizer durch die Zerlegung eines großen Codebuchs in mehrere unabhängige Teilcodebücher revitalisiert. Diese Faktorisierung reduziert die Suchkomplexität großer Codebücher und ermöglicht eine effizientere und skalierbarere visuelle Tokenisierung. Um sicherzustellen, dass jedes Teilcodebuch unterschiedliche und ergänzende Informationen erfasst, schlagen wir eine Entflechtungsregularisierung vor, die Redundanz explizit reduziert und Vielfalt über die Teilcodebücher fördert. Darüber hinaus integrieren wir Repräsentationslernen in den Schulungsprozess, indem wir vortrainierte Visionmodelle wie CLIP und DINO nutzen, um semantische Tiefe in die erlernten Repräsentationen einzubringen. Dieses Design gewährleistet, dass unser Tokenizer vielfältige semantische Ebenen erfasst, was zu ausdrucksstärkeren und entflechteten Repräsentationen führt. Experimente zeigen, dass das vorgeschlagene FQGAN-Modell die Rekonstruktionsqualität von visuellen Tokenizern erheblich verbessert und Spitzenleistungen erzielt. Wir zeigen weiterhin, dass dieser Tokenizer effektiv in die autoregressive Bildgenerierung überführt werden kann. https://showlab.github.io/FQGAN
Wir postulieren, dass die visuelle Historie eines Benutzers mit Bildern, die ihr tägliches Leben widerspiegeln, wertvolle Einblicke in ihre Interessen und Vorlieben bietet und für die Personalisierung genutzt werden kann. Unter den vielen Herausforderungen, um dieses Ziel zu erreichen, ist die Vielfalt und Störungen in der visuellen Historie am bedeutendsten, die Bilder enthält, die nicht unbedingt mit einer Empfehlungsaufgabe zusammenhängen, nicht unbedingt die Interessen des Benutzers widerspiegeln oder sogar nicht unbedingt relevant für Vorlieben sind. Bestehende Empfehlungssysteme stützen sich entweder auf aufgabenspezifische Benutzerinteraktionsprotokolle, wie beispielsweise die Online-Shopping-Historie für Einkaufsempfehlungen, oder konzentrieren sich auf Textsignale. Wir schlagen einen neuartigen Ansatz namens VisualLens vor, der Bildrepräsentationen extrahiert, filtert und verfeinert und diese Signale für die Personalisierung nutzt. Wir haben zwei neue Benchmarks mit aufgabenneutralen visuellen Historien erstellt und zeigen, dass unsere Methode die Empfehlungen im Vergleich zu den modernsten Empfehlungen um 5-10% bei Hit@3 verbessert und im Vergleich zu GPT-4o um 2-5% übertrifft. Unser Ansatz ebnet den Weg für personalisierte Empfehlungen in Szenarien, in denen traditionelle Methoden versagen.
Wir präsentieren eine Methode, um neue Konzepte nur anhand ihrer textuellen Beschreibung zu erlernen. Wir nennen diese Methode Wissenstransfer. Ähnlich wie bei der menschlichen Wahrnehmung nutzen wir die cross-modale Interaktion, um neue Konzepte einzuführen. Wir vermuten, dass in einem vorab trainierten visuellen Encoder bereits genügend niedrigstufige Merkmale gelernt wurden (z. B. Form, Erscheinung, Farbe), die verwendet werden können, um zuvor unbekannte hochstufige Konzepte zu beschreiben. Mit einer textuellen Beschreibung des neuen Konzepts funktioniert unsere Methode, indem sie die bekannten niedrigstufigen Merkmale des visuellen Encoders mit seiner hochstufigen textuellen Beschreibung abgleicht. Wir zeigen, dass der Wissenstransfer erfolgreich neue Konzepte in multimodalen Modellen auf sehr effiziente Weise einführen kann, indem nur eine Beschreibung des Zielkonzepts erforderlich ist. Unser Ansatz ist kompatibel sowohl mit separaten textuellen und visuellen Encodern (z. B. CLIP) als auch mit gemeinsamen Parametern über Modalitäten hinweg. Wir zeigen auch, dass der Wissenstransfer nach dem gleichen Prinzip Konzepte verbessern kann, die dem Modell bereits bekannt sind. Durch den Einsatz des Wissenstransfers verbessern wir die Null-Schuss-Performance über verschiedene Aufgaben hinweg, wie Klassifizierung, Segmentierung, Bild-Text-Retrieval und Bildunterschriften.
Der Übergang von der x86- zur ARM-Architektur wird in verschiedenen Bereichen immer häufiger, hauptsächlich aufgrund der Energieeffizienz von ARM und der verbesserten Leistung in traditionellen Sektoren. Diese ISA-Verschiebung stellt jedoch bedeutende Herausforderungen dar, hauptsächlich aufgrund des umfangreichen Legacy-Ökosystems von x86-Software und der mangelnden Portabilität zwischen proprietären Ökosystemen und Software-Stacks. Dieser Artikel stellt CRT vor, einen leichten LLM-basierten Transpiler, der x86-Assembly automatisch in ARM-Assembly umwandelt. Unser Ansatz überbrückt die grundlegende architektonische Kluft zwischen dem CISC-basierten x86 und dem RISC-basierten ARM, während er die Programmsyntax bewahrt und die Leistung optimiert. Wir evaluieren CRT anhand verschiedener realer Anwendungen und erzielen eine Übersetzungsgenauigkeit von 79,25% von x86 nach ARMv5 in unserem umfassenden Testpaket sowie eine Genauigkeit von 88,68% von x86 nach RISC-V. In praktischen Anwendungen auf Apple M2-Hardware (ARMv8) erreicht unser transpilierter Code eine 1,73-fache Beschleunigung im Vergleich zum Apple Rosetta 2 Virtualisierungsmotor, bei gleichzeitiger Erzielung einer 2,41-fachen Speffizienz und einer 1,47-fach besseren Energieeffizienz. Durch Tests und Analysen zeigen wir, dass CRT erfolgreich die CISC/RISC-Spaltung bewältigt und trotz maschineller "Sprach"barrieren korrekt ausführbaren RISC-Code generiert. Wir veröffentlichen unseren Code, Modelle, Trainingsdatensätze und Benchmarks unter: https://ahmedheakl.github.io/asm2asm/.
Bestehende Große Multimodale Modelle (LMMs) konzentrieren sich in der Regel nur auf wenige Regionen und Sprachen. Da LMMs weiterhin verbessert werden, ist es zunehmend wichtig sicherzustellen, dass sie kulturelle Kontexte verstehen, lokale Sensibilitäten respektieren und Sprachen mit geringen Ressourcen unterstützen, während sie entsprechende visuelle Hinweise effektiv integrieren. Auf der Suche nach kulturell vielfältigen globalen multimodalen Modellen repräsentiert unser vorgeschlagenes All Languages Matter Benchmark (ALM-bench) den bisher größten und umfassendsten Versuch zur Evaluierung von LMMs in 100 Sprachen. ALM-bench fordert bestehende Modelle heraus, indem es ihre Fähigkeit testet, kulturell vielfältige Bilder in Verbindung mit Text in verschiedenen Sprachen zu verstehen und darüber zu argumentieren, einschließlich vieler Sprachen mit geringen Ressourcen, die traditionell in der LMM-Forschung unterrepräsentiert sind. Der Benchmark bietet einen robusten und nuancierten Evaluierungsrahmen mit verschiedenen Frageformaten, darunter Wahr/Falsch, Multiple-Choice und offene Fragen, die weiter in Kurz- und Langantwortkategorien unterteilt sind. Das Design von ALM-bench gewährleistet eine umfassende Bewertung der Fähigkeit eines Modells, unterschiedliche Schwierigkeitsgrade in visueller und sprachlicher Argumentation zu bewältigen. Um das reiche Geflecht globaler Kulturen einzufangen, kuratiert ALM-bench sorgfältig Inhalte aus 13 verschiedenen kulturellen Aspekten, von Traditionen und Ritualen bis hin zu berühmten Persönlichkeiten und Feierlichkeiten. Durch dies bietet ALM-bench nicht nur einen rigorosen Testbereich für modernste offene und geschlossene LMMs, sondern betont auch die Bedeutung kultureller und sprachlicher Inklusivität und ermutigt zur Entwicklung von Modellen, die diverse globale Bevölkerungen effektiv bedienen können. Unser Benchmark ist öffentlich verfügbar.
Die textbasierte Generierung und Bearbeitung von 3D-Szenen birgt ein erhebliches Potenzial zur Optimierung der Inhalteerstellung durch intuitive Benutzerinteraktionen. Während aktuelle Fortschritte auf 3D-Gaußsche Splatting (3DGS) für hochwertiges und Echtzeit-Rendering setzen, sind bestehende Methoden oft spezialisiert und auf bestimmte Aufgaben ausgerichtet, wodurch ein einheitlicher Rahmen für Generierung und Bearbeitung fehlt. In diesem Artikel stellen wir SplatFlow vor, einen umfassenden Rahmen, der diese Lücke durch direkte 3DGS-Generierung und -Bearbeitung schließt. SplatFlow besteht aus zwei Hauptkomponenten: einem Mehransichts-geradlinigen Fluss (RF)-Modell und einem Gaußschen Splatting-Decoder (GSDecoder). Das Mehransichts-RF-Modell arbeitet im latenten Raum, generiert Mehransichtsbilder, Tiefen und Kamerapositionen gleichzeitig, abhängig von Texteingaben, und bewältigt so Herausforderungen wie unterschiedliche Szenenmaßstäbe und komplexe Kamerabewegungen in realen Umgebungen. Anschließend übersetzt der GSDecoder diese latenten Ausgaben effizient in 3DGS-Repräsentationen durch eine vorwärtsgerichtete 3DGS-Methode. Durch die Nutzung von trainingsfreien Inversions- und Inpainting-Techniken ermöglicht SplatFlow nahtlose 3DGS-Bearbeitung und unterstützt eine Vielzahl von 3D-Aufgaben - darunter Objektbearbeitung, neuartige Ansichtssynthese und Schätzung der Kameraposition - innerhalb eines einheitlichen Rahmens, ohne zusätzliche komplexe Abläufe zu erfordern. Wir validieren die Fähigkeiten von SplatFlow anhand der Datensätze MVImgNet und DL3DV-7K und zeigen seine Vielseitigkeit und Effektivität in verschiedenen 3D-Generierungs-, Bearbeitungs- und Inpainting-basierten Aufgaben.
Es ist bekannt, dass die Ketten des Denkens die Leistung von LLMs bei komplexen Aufgaben erheblich verbessern können. Da sie jedoch auch langsamere Inferenzgeschwindigkeiten und höhere Rechenkosten mit sich bringen, haben viele Forscher versucht, implizite CoT zu verwenden, bei der LLMs nicht explizit die Zwischenschritte generieren müssen. Es besteht jedoch immer noch eine Kluft zwischen ihrer Wirksamkeit und den typischen expliziten CoT-Methoden. Dies wirft die Frage auf, ob implizite CoT wirklich gleichwertig mit explizitem CoT ist. Daher adressieren wir in dieser Studie diese Frage durch Experimente. Wir untersuchen die Informationen der Zwischenschritte aus den verborgenen Zuständen des Modells, wenn es implizite CoT durchführt. Die Ergebnisse deuten überraschenderweise darauf hin, dass LLMs kaum über Zwischenschritte nachdenken, was darauf hindeutet, dass sie sich möglicherweise nur auf Erfahrung und nicht auf strenges schrittweises Denken verlassen. Darüber hinaus stellen wir fest, dass die impliziten Denkfähigkeiten von LLMs anfällig und instabil sind, was die Notwendigkeit von explizitem CoT zur effektiven Unterstützung komplexer Aufgaben bekräftigt.
Eine grundlegende offene Herausforderung beim Skalieren moderner LLMs ist das mangelnde Verständnis um aufkommende Fähigkeiten. Insbesondere ist bekannt, dass der Vorverlust beim Sprachmodelltraining stark vorhersagbar ist als Funktion der Rechenleistung. Die nachgelagerten Fähigkeiten sind jedoch weit weniger vorhersehbar - manchmal zeigen sie sogar aufkommende Sprünge -, was es schwierig macht, die Fähigkeiten zukünftiger Modelle zu antizipieren. In dieser Arbeit stellen wir zunächst die Aufgabe der Vorhersage von Emergenz: Unter der Voraussetzung, dass aktuelle LLMs zufällige Few-Shot-Genauigkeit bei einer Aufgabe aufweisen, können wir vorhersagen, ob zukünftige Modelle (GPT-N+1) eine nicht-triviale Genauigkeit bei dieser Aufgabe haben werden? Wir entdecken dann einen einfachen Einblick für dieses Problem: Das Feintuning von LLMs auf eine bestimmte Aufgabe kann den Punkt im Skalieren verschieben, an dem die Emergenz bei weniger leistungsfähigen Modellen auftritt. Um diesen Einblick zu operationalisieren, können wir LLMs mit unterschiedlichen Datenmengen feintunen und eine parametrische Funktion anpassen, die vorhersagt, wann die Emergenz auftritt (d. h. "Emergenzgesetze"). Wir validieren diesen Ansatz anhand von vier Standard-NLP-Benchmarks, bei denen bereits groß angelegte Open-Source-LLMs Emergenz zeigen (MMLU, GSM8K, CommonsenseQA und CoLA). Unter Verwendung nur kleiner LLMs können wir in einigen Fällen genau vorhersagen, ob Modelle, die mit bis zu 4x mehr Rechenleistung trainiert wurden, aufgetaucht sind. Abschließend präsentieren wir eine Fallstudie zu zwei realistischen Anwendungen für die Vorhersage von Emergenz.
Moderne Sequenzmodelle (z. B. Transformer, lineare RNNs usw.) haben sich als dominante Grundstrukturen aktueller Deep-Learning-Frameworks etabliert, hauptsächlich aufgrund ihrer Effizienz, Repräsentationskraft und/oder Fähigkeit, weitreichende Abhängigkeiten zu erfassen. Die Übernahme dieser Sequenzmodelle für graphenstrukturierte Daten hat in letzter Zeit an Popularität gewonnen als Alternative zu Nachrichtenweiterleitenden Neuronalen Netzwerken (MPNNs). Es besteht jedoch ein Mangel an einer gemeinsamen Grundlage darüber, was ein gutes Graph-Sequenzmodell ausmacht, sowie einer mathematischen Beschreibung der Vor- und Nachteile bei der Anwendung verschiedener Sequenzmodelle für das Lernen auf Graphen. Zu diesem Zweck präsentieren wir zunächst das Graph-Sequenzmodell (GSM), ein vereinheitlichendes Rahmenwerk zur Übernahme von Sequenzmodellen für Graphen, bestehend aus drei Hauptkomponenten: (1) Tokenisierung, die den Graphen in eine Reihe von Sequenzen übersetzt; (2) Lokale Kodierung, die lokale Nachbarschaften um jeden Knoten kodiert; und (3) Globale Kodierung, die ein skalierbares Sequenzmodell verwendet, um weitreichende Abhängigkeiten innerhalb der Sequenzen zu erfassen. Dieses Rahmenwerk ermöglicht es uns, die Leistungsfähigkeit verschiedener Sequenzmodell-Grundstrukturen in Graphenaufgaben zu verstehen, zu bewerten und zu vergleichen. Unsere theoretischen Bewertungen der Repräsentationskraft von Transformern und modernen rekurrenten Modellen im Hinblick auf globale und lokale Graphenaufgaben zeigen, dass es sowohl negative als auch positive Seiten für beide Modelltypen gibt. Aufbauend auf dieser Beobachtung präsentieren wir GSM++, ein schnelles Hybridmodell, das den Hierarchischen Affinitätsclustering (HAC)-Algorithmus zur Tokenisierung des Graphen in hierarchische Sequenzen verwendet und dann eine Hybridarchitektur von Transformer einsetzt, um diese Sequenzen zu kodieren. Unsere theoretischen und experimentellen Ergebnisse unterstützen das Design von GSM++, indem sie zeigen, dass GSM++ in den meisten Benchmark-Evaluierungen die Baselines übertrifft.
Die Category-Agnostic Pose Estimation (CAPE) lokalisiert Schlüsselpunkte über verschiedene Objektkategorien hinweg mit einem einzigen Modell, das eine oder wenige annotierte Supportbilder verwendet. Aktuelle Arbeiten haben gezeigt, dass die Verwendung eines Pose-Graphen (d.h. die Behandlung von Schlüsselpunkten als Knoten in einem Graphen anstelle von isolierten Punkten) hilft, Okklusionen zu bewältigen und Symmetrien zu durchbrechen. Diese Methoden gehen jedoch von einem statischen Pose-Graphen mit gleichgewichteten Kanten aus, was zu suboptimalen Ergebnissen führt. Wir stellen EdgeCape vor, ein neuartiges Framework, das diese Einschränkungen überwindet, indem es die Kantengewichte des Graphen vorhersagt, was die Lokalisierung optimiert. Um strukturelle Voraussetzungen weiter zu nutzen, schlagen wir vor, Markovian Structural Bias zu integrieren, das die Selbst-Aufmerksamkeits-Interaktion zwischen Knoten basierend auf der Anzahl der Sprünge zwischen ihnen moduliert. Wir zeigen, dass dies die Fähigkeit des Modells verbessert, globale räumliche Abhängigkeiten zu erfassen. Anhand des MP-100-Benchmarks, der 100 Kategorien und über 20.000 Bilder umfasst, erzielt EdgeCape Spitzenleistungen im 1-Shot-Setting und führt unter ähnlich großen Methoden im 5-Shot-Setting, wodurch die Genauigkeit der Schlüsselpunktlokalisierung signifikant verbessert wird. Unser Code ist öffentlich verfügbar.
Wir untersuchen die Segmentierung von Teilen in offenen 3D-Welten: die Segmentierung eines beliebigen Teils in einem beliebigen Objekt basierend auf einer beliebigen Textabfrage. Frühere Methoden sind in Objektkategorien und Teilverzeichnissen begrenzt. Die jüngsten Fortschritte in der KI haben effektive Fähigkeiten zur offenen Welt-Erkennung in 2D gezeigt. Inspiriert von diesem Fortschritt schlagen wir ein offenes, direktes Vorhersagemodell für die 3D-Teilsegmentierung vor, das nullschrittig auf jedes Objekt angewendet werden kann. Unser Ansatz, namens Find3D, trainiert ein allgemeines Kategorien-Punkteinbettungsmodell auf groß angelegten 3D-Ressourcen aus dem Internet ohne jegliche menschliche Annotation. Es kombiniert eine Daten-Engine, die von Grundlagenmodellen zur Annotation von Daten unterstützt wird, mit einer kontrastiven Trainingsmethode. Wir erzielen starke Leistungen und Generalisierung über mehrere Datensätze hinweg, mit einer bis zu 3-fachen Verbesserung des mIoU gegenüber der nächstbesten Methode. Unser Modell ist 6-fach bis über 300-fach schneller als bestehende Baselines. Um die Forschung in der allgemeinen Kategorie der offenen 3D-Teilsegmentierung zu fördern, veröffentlichen wir auch einen Benchmark für allgemeine Objekte und Teile. Projektwebsite: https://ziqi-ma.github.io/find3dsite/