Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative Modelle haben in verschiedenen Bereichen erhebliche Auswirkungen gehabt, hauptsächlich aufgrund ihrer Fähigkeit, während des Trainings durch Erhöhung von Daten, Rechenressourcen und Modellgröße zu skalieren, ein Phänomen, das durch die Skalierungsgesetze charakterisiert wird. Aktuelle Forschung hat begonnen, das Skalierungsverhalten zur Inferenzzeit bei Large Language Models (LLMs) zu erforschen, was zeigt, wie die Leistung durch zusätzliche Berechnungen während der Inferenz weiter verbessert werden kann. Im Gegensatz zu LLMs besitzen Diffusionsmodelle von Natur aus die Flexibilität, die Berechnung zur Inferenzzeit über die Anzahl der Rauschunterdrückungsschritte anzupassen, obwohl die Leistungsgewinne in der Regel nach einigen Dutzend abflachen. In dieser Arbeit erforschen wir das Skalierungsverhalten zur Inferenzzeit von Diffusionsmodellen über die Erhöhung der Rauschunterdrückungsschritte hinaus und untersuchen, wie die Generierungsleistung durch erhöhte Berechnung weiter verbessert werden kann. Insbesondere betrachten wir ein Suchproblem, das darauf abzielt, bessere Rausche für den Diffusionsabtastungsprozess zu identifizieren. Wir strukturieren den Designraum entlang zweier Achsen: der Verifikatoren, die zur Rückmeldung verwendet werden, und der Algorithmen, die zur Suche nach besseren Rauschkandidaten verwendet werden. Durch umfangreiche Experimente an klassenbedingten und textbedingten Bildgenerierungsbenchmarks zeigen unsere Ergebnisse, dass eine Erhöhung der Inferenzzeitberechnung zu erheblichen Verbesserungen bei der Qualität der von Diffusionsmodellen generierten Proben führt und dass bei der komplexen Natur von Bildern Kombinationen der Komponenten im Rahmenwerk speziell für verschiedene Anwendungsszenarien ausgewählt werden können.
Das maschinelle Schreiben mit großen Sprachmodellen basiert häufig auf generierungsergänztem Abruf. Diese Ansätze bleiben jedoch innerhalb der Grenzen des vordefinierten Umfangs des Modells, was die Generierung von Inhalten mit reichen Informationen einschränkt. Speziell neigt die rein abgerufene Information dazu, an Tiefe und Nützlichkeit zu fehlen und unter Redundanz zu leiden, was sich negativ auf die Qualität der generierten Artikel auswirkt und zu oberflächlichen, sich wiederholenden und nicht originellen Ergebnissen führt. Um diese Probleme anzugehen, schlagen wir OmniThink vor, ein maschinelles Schreibrahmenwerk, das den menschenähnlichen Prozess der iterativen Erweiterung und Reflexion nachahmt. Die Kernidee hinter OmniThink besteht darin, das kognitive Verhalten von Lernenden zu simulieren, während sie ihr Wissen zu den Themen schrittweise vertiefen. Experimentelle Ergebnisse zeigen, dass OmniThink die Wissensdichte der generierten Artikel verbessert, ohne Metriken wie Kohärenz und Tiefe zu beeinträchtigen. Menschliche Bewertungen und Expertenfeedback unterstreichen weiterhin das Potenzial von OmniThink, reale Herausforderungen bei der Generierung von umfangreichen Artikeln anzugehen.
Sprache wurde lange Zeit als ein wesentliches Werkzeug für menschliches Denken betrachtet. Der Durchbruch der Großen Sprachmodelle (LLMs) hat ein signifikantes Forschungsinteresse an der Nutzung dieser Modelle zur Bewältigung komplexer Denkaufgaben ausgelöst. Forscher sind über die einfache autoregressive Token-Generierung hinausgegangen, indem sie das Konzept des "Gedankens" eingeführt haben - eine Sequenz von Tokens, die Zwischenschritte im Denkprozess darstellen. Dieses innovative Paradigma ermöglicht es LLMs, komplexe menschliche Denkprozesse wie Baumsuche und reflektierendes Denken nachzuahmen. In letzter Zeit hat sich ein aufkommender Trend des Lernens, zu denken, verstärkendes Lernen (RL) angewendet, um LLMs zu trainieren, Denkprozesse zu beherrschen. Dieser Ansatz ermöglicht die automatische Generierung hochwertiger Denkpfade durch Trial-and-Error-Suchalgorithmen und erweitert signifikant die Denkkapazität von LLMs, indem wesentlich mehr Trainingsdaten bereitgestellt werden. Darüber hinaus zeigen jüngste Studien, dass LLMs durch die Ermutigung, während der Testzeit-Inferenz mit mehr Tokens zu "denken", die Denkgenauigkeit weiter signifikant steigern können. Daher zeigen die Trainings- und Testzeit-Skalierung zusammen einen neuen Forschungsbereich - einen Weg zum Großen Denkmodell. Die Einführung der o1-Serie von OpenAI markiert einen bedeutenden Meilenstein in dieser Forschungsrichtung. In dieser Übersicht präsentieren wir eine umfassende Überprüfung des jüngsten Fortschritts im Denken von LLMs. Wir beginnen mit der Einführung des grundlegenden Hintergrunds von LLMs und untersuchen dann die wichtigsten technischen Komponenten, die die Entwicklung großer Denkmodelle vorantreiben, mit einem Schwerpunkt auf automatischer Datenerstellung, Lern-zu-Denken-Techniken und Testzeit-Skalierung. Wir analysieren auch beliebte Open-Source-Projekte zum Aufbau großer Denkmodelle und schließen mit offenen Herausforderungen und zukünftigen Forschungsrichtungen.
Die visuelle Tokenisierung mittels Auto-Encoding stärkt modernste Bild- und Videogenerierungsmodelle, indem Pixel in einen latenten Raum komprimiert werden. Obwohl das Skalieren von Transformer-basierten Generatoren entscheidend für jüngste Fortschritte war, wird die Tokenizer-Komponente selbst selten skaliert, was Fragen offen lässt, wie Designentscheidungen des Auto-Encoders sowohl die Rekonstruktionsziele als auch die nachgelagerte generative Leistung beeinflussen. Unsere Arbeit zielt darauf ab, eine Untersuchung des Scalings in Auto-Encodern durchzuführen, um diese Lücke zu schließen. Um diese Untersuchung zu erleichtern, ersetzen wir das typische konvolutionale Grundgerüst durch eine verbesserte Vision-Transformer-Architektur für Tokenisierung (ViTok). Wir trainieren ViTok auf umfangreichen Bild- und Videodatensätzen, die weit über ImageNet-1K hinausgehen, und beseitigen Datenbeschränkungen beim Skalieren des Tokenizers. Zunächst untersuchen wir, wie sich das Skalieren des Engpasses des Auto-Encoders sowohl auf die Rekonstruktion als auch auf die Generierung auswirkt - und stellen fest, dass es zwar stark mit der Rekonstruktion korreliert ist, aber seine Beziehung zur Generierung komplexer ist. Anschließend untersuchten wir die Auswirkung des separaten Scalings des Encoders und Decoders der Auto-Encoder auf die Rekonstruktions- und Generierungsleistung. Entscheidend ist, dass wir feststellen, dass das Skalieren des Encoders nur minimale Gewinne für die Rekonstruktion oder Generierung bringt, während das Skalieren des Decoders die Rekonstruktion verbessert, aber die Vorteile für die Generierung gemischt sind. Aufbauend auf unserer Untersuchung entwerfen wir ViTok als einen leichten Auto-Encoder, der eine wettbewerbsfähige Leistung mit modernsten Auto-Encodern bei ImageNet-1K und COCO-Rekonstruktionsaufgaben (256p und 512p) erzielt, während er bestehende Auto-Encoder bei der 16-Bild-128p-Video-Rekonstruktion für UCF-101 übertrifft, und das mit 2-5x weniger FLOPs. Wenn ViTok mit Diffusion-Transformern integriert wird, zeigt es eine wettbewerbsfähige Leistung bei der Bildgenerierung für ImageNet-1K und setzt neue Bestmarken für die klassenkonditionierte Videogenerierung auf UCF-101.
Die KI-Videoerzeugung durchläuft eine Revolution, wobei Qualität und Realismus sich schnell verbessern. Diese Fortschritte haben zu einer leidenschaftlichen wissenschaftlichen Debatte geführt: Lernen Videomodelle "Weltmodelle", die physikalische Gesetze entdecken – oder sind sie lediglich ausgefeilte Pixelvorhersager, die visuellen Realismus ohne Verständnis der physikalischen Prinzipien der Realität erreichen? Wir untersuchen diese Frage, indem wir Physics-IQ entwickeln, einen umfassenden Benchmark-Datensatz, der nur gelöst werden kann, indem ein tiefgreifendes Verständnis verschiedener physikalischer Prinzipien erlangt wird, wie z.B. Strömungsmechanik, Optik, Festkörpermechanik, Magnetismus und Thermodynamik. Wir stellen fest, dass bei einer Reihe aktueller Modelle (Sora, Runway, Pika, Lumiere, Stable Video Diffusion und VideoPoet) das physikalische Verständnis stark begrenzt ist und nicht mit dem visuellen Realismus zusammenhängt. Gleichzeitig können einige Testfälle bereits erfolgreich gelöst werden. Dies deutet darauf hin, dass das Erlangen bestimmter physikalischer Prinzipien allein durch Beobachtung möglich sein könnte, jedoch weiterhin bedeutende Herausforderungen bestehen. Obwohl wir schnelle Fortschritte erwarten, zeigt unsere Arbeit, dass visueller Realismus kein physikalisches Verständnis impliziert. Unsere Projektseite befindet sich unter https://physics-iq.github.io; der Code unter https://github.com/google-deepmind/physics-IQ-benchmark.
Autoregressive Sequenzmodelle, wie Transformer-basierte Vision-Language-Action (VLA) Richtlinien, können äußerst effektiv sein, um komplexe und generalisierbare robotische Verhaltensweisen zu erfassen. Allerdings erfordern solche Modelle die Auswahl einer Tokenisierung unserer kontinuierlichen Aktionsignale, die bestimmt, wie die diskreten Symbole, die vom Modell vorhergesagt werden, zu kontinuierlichen Roboteraktionen abgebildet werden. Wir stellen fest, dass aktuelle Ansätze für die Tokenisierung von Roboteraktionen, die auf einfachen pro Dimension, pro Zeitschritt Binning-Schemata basieren, in der Regel schlecht abschneiden, wenn es darum geht, geschickte Fähigkeiten aus hochfrequenten Roboterdaten zu erlernen. Um diese Herausforderung anzugehen, schlagen wir ein neues kompressionsbasiertes Tokenisierungsschema für Roboteraktionen vor, das auf der diskreten Cosinus-Transformation basiert. Unser Tokenisierungsansatz, Frequency-space Action Sequence Tokenization (FAST), ermöglicht es uns, autoregressive VLAs für äußerst geschickte und hochfrequente Aufgaben zu trainieren, bei denen herkömmliche Diskretisierungsmethoden vollständig versagen. Basierend auf FAST veröffentlichen wir FAST+, einen universellen Roboteraktions-Tokenizer, der auf 1M realen Roboteraktions-Trajektorien trainiert ist. Er kann als Black-Box-Tokenizer für eine Vielzahl von Roboteraktionssequenzen mit unterschiedlichen Aktionsräumen und Steuerfrequenzen verwendet werden. Schließlich zeigen wir, dass unsere Methode in Kombination mit dem pi0 VLA auf das Training von 10k Stunden Roboterdaten skaliert werden kann und die Leistung von Diffusion VLAs erreicht, wobei die Trainingszeit um bis zu 5x reduziert wird.
Wir stellen SynthLight vor, ein Diffusionsmodell für das Neubeleuchten von Porträts. Unser Ansatz betrachtet das Neubeleuchten von Bildern als ein Problem der Neurenderung, bei dem Pixel in Reaktion auf Veränderungen der Umgebungsbeleuchtung transformiert werden. Mithilfe eines physikalisch basierten Rendermotors synthetisieren wir einen Datensatz, um diese beleuchtungsbedingte Transformation mit 3D-Kopfobjekten unter unterschiedlichen Lichtverhältnissen zu simulieren. Wir schlagen zwei Trainings- und Inferenzstrategien vor, um die Kluft zwischen den synthetischen und realen Bildbereichen zu überbrücken: (1) Mehrfachaufgaben-Training, das von echten menschlichen Porträts ohne Beleuchtungsetiketten profitiert; (2) ein Inferenzzeit-Diffusionsabtastverfahren basierend auf klassifiziererfreier Führung, das das Eingangsporträt nutzt, um Details besser zu erhalten. Unsere Methode generalisiert auf vielfältige reale Fotografien und erzeugt realistische Beleuchtungseffekte, einschließlich Spitzlichtern und Schattenwürfen, während sie die Identität des Motivs bewahrt. Unsere quantitativen Experimente mit Light-Stage-Daten zeigen Ergebnisse, die mit State-of-the-Art-Neubeleuchtungsmethoden vergleichbar sind. Unsere qualitativen Ergebnisse bei In-the-Wild-Bildern präsentieren reiche und noch nie dagewesene Beleuchtungseffekte. Projekthomepage: https://vrroom.github.io/synthlight/
Die Online-Medikonsultation (OMC) beschränkt Ärzte darauf, Patienteninformationen ausschließlich durch Befragungen zu sammeln, was den ohnehin schon komplexen sequenziellen Entscheidungsfindungsprozess der Diagnose noch herausfordernder macht. In letzter Zeit hat der rasante Fortschritt großer Sprachmodelle ein erhebliches Potenzial zur Transformation der OMC gezeigt. Die meisten Studien haben sich jedoch hauptsächlich darauf konzentriert, die diagnostische Genauigkeit unter Bedingungen relativ ausreichender Informationen zu verbessern, während sie der "Befragung" -Phase des Konsultationsprozesses nur begrenzte Aufmerksamkeit geschenkt haben. Dieser Mangel an Fokus hat die Beziehung zwischen "Befragung" und "Diagnose" unzureichend erforscht. In diesem Artikel extrahieren wir zunächst reale Patienteninteraktionsstrategien aus authentischen Arzt-Patienten-Gesprächen und verwenden diese Strategien, um das Training eines Patientensimulators zu leiten, der das Verhalten der realen Welt genau widerspiegelt. Indem wir medizinische Aufzeichnungen in unseren Patientensimulator eingeben, um Patientenantworten zu simulieren, führen wir umfangreiche Experimente durch, um die Beziehung zwischen "Befragung" und "Diagnose" im Konsultationsprozess zu erforschen. Die experimentellen Ergebnisse zeigen, dass Befragung und Diagnose dem Liebigschen Gesetz folgen: Eine schlechte Befragungsqualität begrenzt die Wirksamkeit der Diagnose, unabhängig von der diagnostischen Fähigkeit, und umgekehrt. Darüber hinaus zeigen die Experimente signifikante Unterschiede in der Befragungsleistung verschiedener Modelle auf. Um dieses Phänomen zu untersuchen, kategorisieren wir den Befragungsprozess in vier Typen: (1) Befragung zur Hauptsymptomatik; (2) Spezifizierung bekannter Symptome; (3) Befragung zu begleitenden Symptomen; und (4) Sammlung von Familien- oder Krankengeschichte. Wir analysieren die Verteilung von Befragungen über die vier Typen für verschiedene Modelle, um die Gründe für ihre signifikanten Leistungsunterschiede zu erforschen. Wir planen, die Gewichte und den zugehörigen Code unseres Patientensimulators unter https://github.com/LIO-H-ZEN/PatientSimulator als Open-Source freizugeben.
Die Synthese hochwertiger 3D-Assets aus textuellen oder visuellen Eingaben ist zu einem zentralen Ziel in der modernen generativen Modellierung geworden. Trotz der Verbreitung von 3D-Generierungsalgorithmen kämpfen sie häufig mit Herausforderungen wie Mehrsicht-Inkonsistenzen, langsamen Generierungszeiten, geringer Treue und Oberflächenrekonstruktionsproblemen. Obwohl einige Studien einige dieser Probleme angegangen sind, bleibt eine umfassende Lösung bisher schwer fassbar. In diesem Papier stellen wir CaPa vor, ein Schnitz- und Mal-Framework, das hochwertige 3D-Assets effizient generiert. CaPa verwendet einen zweistufigen Prozess, der die Geometriegenerierung von der Textursynthese entkoppelt. Zunächst generiert ein 3D-Latenzdiffusionsmodell Geometrie, die durch Mehrsichteingaben geleitet wird und so für strukturelle Konsistenz über verschiedene Perspektiven hinweg sorgt. Anschließend, unter Verwendung einer neuartigen, modellagnostischen räumlich entkoppelten Aufmerksamkeit, synthetisiert das Framework hochauflösende Texturen (bis zu 4K) für eine gegebene Geometrie. Darüber hinaus schlagen wir einen 3D-bewussten Okklusions-Inpainting-Algorithmus vor, der untexturierte Bereiche ausfüllt und so zu kohärenten Ergebnissen über das gesamte Modell hinweg führt. Dieser Prozess generiert hochwertige 3D-Assets in weniger als 30 Sekunden und liefert sofort einsatzbereite Ergebnisse für kommerzielle Anwendungen. Experimentelle Ergebnisse zeigen, dass CaPa sowohl in der Texturtreue als auch in der geometrischen Stabilität herausragt und damit einen neuen Standard für praktische, skalierbare 3D-Asset-Generierung etabliert.
In jüngster Zeit haben groß angelegte generative Modelle herausragende Fähigkeiten bei der Text-zu-Bild-Generierung gezeigt. Die Generierung hochwertiger personalisierter Bilder mit spezifischen Motiven stellt jedoch nach wie vor Herausforderungen dar, insbesondere bei Fällen mit mehreren Motiven. In diesem Paper schlagen wir AnyStory vor, einen einheitlichen Ansatz für die Generierung personalisierter Motive. AnyStory erreicht nicht nur eine hochwertige Personalisierung für einzelne Motive, sondern auch für mehrere Motive, ohne die Motivtreue zu beeinträchtigen. Spezifisch modelliert AnyStory das Problem der Motivpersonalisierung auf eine "Kodiere-dann-Leite"-Weise. Im Kodierungsschritt nutzt AnyStory einen universellen und leistungsstarken Bildkodierer, d.h. ReferenceNet, in Verbindung mit dem CLIP-Visionkodierer, um eine hochwertige Kodierung von Motivmerkmalen zu erreichen. Im Leitschritt verwendet AnyStory einen entkoppelten instanzbewussten Motivrouter, um den potenziellen Standort des entsprechenden Motivs im latenten Raum genau wahrzunehmen und vorherzusagen, und um die Injektion von Motivbedingungen zu lenken. Detaillierte experimentelle Ergebnisse zeigen die ausgezeichnete Leistung unserer Methode bei der Beibehaltung von Motivdetails, der Abstimmung von Textbeschreibungen und der Personalisierung für mehrere Motive. Die Projektseite befindet sich unter https://aigcdesigngroup.github.io/AnyStory/.
Der kürzliche Anstieg der Popularität großer Sprachmodelle hat die Entwicklung umfangreicher Code-Datensätze vorangetrieben, die benötigt werden, um sie zu trainieren. Dies hat nur begrenzten Code für die Sammlung und Verwendung bei der nachgelagerten Untersuchung spezifischer Verhaltensweisen oder der Bewertung großer Sprachmodelle hinterlassen, ohne unter Datenkontamination zu leiden. Um dieses Problem zu lösen, veröffentlichen wir "The Heap", einen großen mehrsprachigen Datensatz, der 57 Programmiersprachen abdeckt und hinsichtlich anderer offener Code-Datensätze dedupliziert wurde. Dies ermöglicht es Forschern, faire Bewertungen großer Sprachmodelle ohne signifikanten Aufwand für die Datenbereinigung durchzuführen.
Generative KI-Systeme wie Grundlagenmodelle (FMs) müssen gut mit menschlichen Werten in Einklang stehen, um sicherzustellen, dass ihr Verhalten hilfreich und vertrauenswürdig ist. Während das Lernen aus menschlichem Feedback für die Verstärkung (RLHF) vielversprechend war, um die Leistung des Modells mithilfe menschlicher Beurteilungen zu optimieren, stützen sich bestehende RLHF-Pipelines hauptsächlich auf unmittelbares Feedback, das möglicherweise nicht genau die Auswirkungen einer Interaktion auf den Nutzen der Benutzer widerspiegelt. Wir zeigen, dass Feedback, das auf Schätzungen der Voraussicht von Evaluatoren über nachgelagerte Konsequenzen basiert, systematisch Dynamiken des Goodhart-Gesetzes induziert, die Fehlausrichtungen wie Schmeichelei und Täuschung fördern und letztendlich die Nutzerergebnisse verschlechtern. Um dem entgegenzuwirken, schlagen wir vor, die Bewertung von der Vorhersage zu entkoppeln, indem wir RLHF auf Rückblick-Feedback neu ausrichten. Unsere theoretische Analyse zeigt, dass die Konditionierung des Evaluatoren-Feedbacks auf nachgelagerte Beobachtungen Fehlausrichtungen mildert und die erwartete menschliche Nützlichkeit verbessert, selbst wenn diese Beobachtungen vom KI-System selbst simuliert werden. Um diese Erkenntnis in einem praktischen Ausrichtungsalgorithmus zu nutzen, führen wir das Lernen aus Rückblicksimulation (RLHS) ein, das zunächst plausible Konsequenzen simuliert und dann Feedback einholt, um zu bewerten, welche Verhaltensweisen im Nachhinein tatsächlich vorteilhaft waren. Wir wenden RLHS auf zwei weit verbreitete Online- und Offline-Methoden zur Präferenzoptimierung an - Proximale Richtlinienoptimierung (PPO) und Direkte Präferenzoptimierung (DPO) - und zeigen empirisch, dass die Fehlausrichtung bei beiden Methoden signifikant reduziert wird. Durch eine Online-Benutzerstudie zeigen wir, dass RLHS konsistent besser abschneidet als RLHF, um Benutzern bei der Zielerreichung zu helfen und höhere Zufriedenheitsbewertungen zu erzielen, obwohl es ausschließlich mit simuliertem Rückblick-Feedback trainiert wurde. Diese Ergebnisse unterstreichen die Bedeutung, sich auf langfristige Konsequenzen, auch auf simulierte, zu konzentrieren, um Fehlausrichtungen in RLHF zu mildern.