Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Da Large Language Models (LLMs) immer fortschrittlicher geworden sind, haben sie unsere Fähigkeiten übertroffen, ihre Qualität genau zu bewerten. Es ist nicht nur schwierig, Daten zu finden, um bestimmte Modelleigenschaften angemessen zu untersuchen, sondern auch die Korrektheit der freiformen Generierung eines Modells allein zu bewerten, stellt eine Herausforderung dar. Um dem entgegenzuwirken, verlassen sich viele Bewertungen nun darauf, LLMs selbst als Richter zu verwenden, um die Qualität der Ausgaben anderer LLMs zu bewerten. Bewertungen verwenden in der Regel ein einzelnes großes Modell wie GPT4. Obwohl diese Methode an Popularität gewonnen hat, ist sie kostspielig, hat sich gezeigt, dass sie intramodellen Bias einführt, und in dieser Arbeit stellen wir fest, dass sehr große Modelle oft unnötig sind. Wir schlagen stattdessen vor, Modelle mithilfe eines Panels von LLM-Bewertern (PoLL) zu bewerten. Über drei verschiedene Richtereinstellungen und sechs verschiedene Datensätze hinweg stellen wir fest, dass die Verwendung eines PoLL, der aus einer größeren Anzahl kleinerer Modelle besteht, eine einzelne große Bewertung übertrifft, weniger intramodellen Bias aufweist aufgrund seiner Zusammensetzung aus verschiedenen Modellfamilien und dies alles, während es über siebenmal kostengünstiger ist.
Spekulatives Decodieren hat seine Wirksamkeit bei der Beschleunigung der Inferenz großer Sprachmodelle unter Beibehaltung einer konsistenten Stichprobenverteilung gezeigt. Allerdings kann der herkömmliche Ansatz, ein separates Entwurfsmodell zu trainieren, um eine zufriedenstellende Token-Akzeptanzrate zu erreichen, kostspielig sein. Inspiriert von frühzeitigem Abbruch schlagen wir ein neuartiges selbstspekulatives Decodierungs-Framework namens Kangaroo vor, das ein festes flaches Teilnetzwerk als Selbstentwurfsmodell verwendet, wobei die verbleibenden Schichten als das größere Zielmodell dienen. Wir trainieren ein leichtes und effizientes Adaptermodul oben auf dem Teilnetzwerk, um die Kluft zwischen der Fähigkeit des Teilnetzwerks und der Repräsentationsfähigkeit des vollständigen Modells zu überbrücken. Es ist erwähnenswert, dass die Inferenzlatenz des Selbstentwurfsmodells im Vergleich zum großen Modell möglicherweise nicht mehr vernachlässigbar ist, was Strategien erfordert, um die Token-Akzeptanzrate zu erhöhen und gleichzeitig die Entwurfschritte des kleinen Modells zu minimieren. Um diese Herausforderung anzugehen, führen wir einen zusätzlichen frühzeitigen Abbruchmechanismus für die Generierung von Entwurfstoken ein. Konkret unterbrechen wir die nachfolgende Vorhersage des kleinen Modells während der Entwurfsphase, sobald der Vertrauensgrad für das aktuelle Token unter einen bestimmten Schwellenwert fällt. Umfangreiche Experimente auf dem Spec-Bench zeigen die Wirksamkeit von Kangaroo. Unter Einzel-Sequenz-Verifikation erzielt Kangaroo auf dem Spec-Bench Geschwindigkeitssteigerungen von bis zu 1,68-mal und übertrifft Medusa-1 mit 88,7\% weniger zusätzlichen Parametern (67M im Vergleich zu 591M). Der Code für Kangaroo ist verfügbar unter https://github.com/Equationliu/Kangaroo.
Exzellenz in einer Vielzahl von medizinischen Anwendungen stellt erhebliche Herausforderungen für KI dar, die fortgeschrittenes Argumentieren, Zugang zu aktuellen medizinischen Kenntnissen und das Verständnis komplexer multimodaler Daten erfordern. Gemini-Modelle, mit starken allgemeinen Fähigkeiten im multimodalen und langen Kontext-Argumentieren, bieten aufregende Möglichkeiten in der Medizin. Aufbauend auf diesen Kernstärken von Gemini stellen wir Med-Gemini vor, eine Familie hochfähiger multimodaler Modelle, die auf Medizin spezialisiert sind und die Fähigkeit besitzen, nahtlos Web-Suche zu nutzen und die effizient an neue Modalitäten mit benutzerdefinierten Encodern angepasst werden können. Wir evaluieren Med-Gemini an 14 medizinischen Benchmarks, etablieren neue Bestleistungen (SoTA) auf 10 von ihnen und übertreffen die GPT-4-Modellfamilie auf jedem Benchmark, wo ein direkter Vergleich möglich ist, oft deutlich. Auf dem beliebten MedQA (USMLE) Benchmark erreicht unser bestes Med-Gemini-Modell eine SoTA-Leistung von 91,1% Genauigkeit, unter Verwendung einer neuartigen Unsicherheits-geführten Suchstrategie. Auf 7 multimodalen Benchmarks, einschließlich NEJM Image Challenges und MMMU (Gesundheit & Medizin), verbessert Med-Gemini die Leistung im Vergleich zu GPT-4V um einen durchschnittlichen relativen Wert von 44,5%. Wir zeigen die Wirksamkeit der langen Kontextfähigkeiten von Med-Gemini durch SoTA-Leistung bei einer Nadel-im-Heuhaufen-Retrieval-Aufgabe aus langen anonymisierten Gesundheitsakten und medizinischer Video-Fragenbeantwortung, wobei frühere maßgeschneiderte Methoden, die nur auf In-Context-Lernen basieren, übertroffen werden. Schließlich legt die Leistung von Med-Gemini nahe, dass es im realen Leben nützlich sein könnte, indem es menschliche Experten in Aufgaben wie medizinische Textzusammenfassung übertrifft, neben Demonstrationen vielversprechenden Potenzials für multimodalen medizinischen Dialog, medizinische Forschung und Bildung. Zusammenfassend bieten unsere Ergebnisse überzeugende Beweise für das Potenzial von Med-Gemini, obwohl weitere strenge Evaluationen entscheidend sein werden, bevor eine Bereitstellung in diesem sicherheitskritischen Bereich erfolgen kann.
Trotz Fortschritten bei Großen Sprachmodellen (LLMs) und Großen Multimodalen Modellen (LMMs) bleibt deren Integration in sprachbezogene, menschenähnliche verkörperte Agenten unvollständig, was die Leistung komplexer Aufgaben im realen physischen Umfeld beeinträchtigt. Bestehende Integrationen weisen häufig eine begrenzte Open-Source-Bereitstellung auf, was den kollektiven Fortschritt in diesem Bereich erschwert. Wir stellen LEGENT vor, eine offene, skalierbare Plattform zur Entwicklung verkörperter Agenten unter Verwendung von LLMs und LMMs. LEGENT bietet einen dualen Ansatz: eine interaktive 3D-Umgebung mit kommunikationsfähigen und handlungsfähigen Agenten, gepaart mit einer benutzerfreundlichen Benutzeroberfläche, sowie eine ausgefeilte Datengenerierungspipeline, die fortschrittliche Algorithmen nutzt, um Überwachung aus simulierten Welten im großen Maßstab zu nutzen. In unseren Experimenten übertrifft ein vision-sprache-aktionsmodell in der Embryonalphase, das auf LEGENT-generierten Daten trainiert wurde, GPT-4V in verkörperten Aufgaben und zeigt vielversprechende Verallgemeinerungsfähigkeiten.
Grafikdesign ist wichtig für verschiedene Anwendungen, einschließlich Filmproduktion und Spieldesign. Um eine qualitativ hochwertige Szene zu erstellen, müssen Designer in der Regel Stunden in Software wie Blender verbringen, in der sie möglicherweise Operationen wie das Verbinden von Materialknoten hunderte Male ineinander verschachteln und wiederholen müssen. Darüber hinaus können leicht unterschiedliche Designziele völlig unterschiedliche Sequenzen erfordern, was die Automatisierung erschwert. In diesem Papier schlagen wir ein System vor, das Vision-Language-Modelle (VLMs) wie GPT-4V nutzt, um intelligent den Design-Aktionsraum zu durchsuchen und zu einer Lösung zu gelangen, die die Absicht eines Benutzers erfüllen kann. Konkret entwerfen wir einen visionbasierten Edit-Generator und einen Zustandsbewerter, die zusammenarbeiten, um die richtige Sequenz von Aktionen zur Erreichung des Ziels zu finden. Inspiriert von der Rolle der visuellen Vorstellungskraft im menschlichen Designprozess ergänzen wir die visuellen Denkfähigkeiten von VLMs mit "imaginären" Referenzbildern aus Bildgenerierungsmodellen, um eine visuelle Verankerung abstrakter Sprachbeschreibungen zu bieten. In diesem Papier liefern wir empirische Beweise, die nahelegen, dass unser System einfache, aber mühsame Blender-Bearbeitungssequenzen für Aufgaben wie die Bearbeitung prozeduraler Materialien aus Text und/oder Referenzbildern sowie die Anpassung von Beleuchtungskonfigurationen für Produktrenderings in komplexen Szenen erstellen kann.
Jenseits der Skalierung von Basismodellen mit mehr Daten oder Parametern bieten feinabgestimmte Adapter eine alternative Möglichkeit, hochwertige, individuelle Bilder zu reduzierten Kosten zu generieren. Daher wurden Adapter von Open-Source-Communities weit verbreitet übernommen und haben eine Datenbank von über 100.000 Adaptern angesammelt, von denen die meisten stark angepasst sind und unzureichende Beschreibungen aufweisen. In diesem Paper wird das Problem der Zuordnung des Ausgangstextes zu einer Reihe relevanter Adapter untersucht, basierend auf aktuellen Arbeiten, die die Leistungssteigerungen durch die Komposition von Adaptern hervorheben. Wir stellen Stylus vor, das effizient task-spezifische Adapter anhand der Schlüsselwörter des Ausgangstextes auswählt und automatisch zusammensetzt. Stylus skizziert einen dreistufigen Ansatz, der zunächst Adapter mit verbesserten Beschreibungen und Einbettungen zusammenfasst, relevante Adapter abruft und dann Adapter basierend auf den Schlüsselwörtern des Ausgangstextes weiter zusammenstellt, indem überprüft wird, wie gut sie zum Ausgangstext passen. Zur Evaluierung von Stylus haben wir StylusDocs entwickelt, einen kuratierten Datensatz mit 75.000 Adaptern mit vorberechneten Adapter-Einbettungen. In unserer Evaluation an beliebten Stable Diffusion Checkpoints erreicht Stylus eine höhere CLIP-FID Pareto-Effizienz und wird mit doppelter Präferenz von Menschen und multimodalen Modellen als Evaluatoren gegenüber dem Basismodell bevorzugt. Besuchen Sie stylus-diffusion.github.io für weitere Informationen.
Autonome robotische Systeme, die in der Lage sind, neue Manipulationsaufgaben zu erlernen, stehen kurz davor, Branchen von der Fertigung bis zur Serviceautomatisierung zu transformieren. Allerdings sehen sich moderne Methoden (z.B. VIP und R3M) nach wie vor erheblichen Hürden gegenüber, insbesondere der Domänenunterschied zwischen den robotischen Verkörperungen und der Seltenheit erfolgreicher Aufgabenausführungen innerhalb spezifischer Aktionsräume, was zu nicht übereinstimmenden und mehrdeutigen Aufgabenrepräsentationen führt. Wir stellen Ag2Manip (Agenten-agnostische Repräsentationen für Manipulation) vor, ein Framework, das darauf abzielt, diese Herausforderungen durch zwei Schlüsselinnovationen zu überwinden: eine neuartige agenten-agnostische visuelle Repräsentation, die aus menschlichen Manipulationsvideos abgeleitet ist, wobei die Details der Verkörperungen verdeckt sind, um die Verallgemeinerbarkeit zu verbessern; und eine agenten-agnostische Aktionsrepräsentation, die die Kinematik eines Roboters zu einem universellen Agentenproxy abstrahiert und die wesentlichen Interaktionen zwischen Endeffektor und Objekt hervorhebt. Die empirische Validierung von Ag2Manip über simulierte Benchmarks wie FrankaKitchen, ManiSkill und PartManip zeigt eine Leistungssteigerung um 325 %, die ohne domänenspezifische Demonstrationen erreicht wurde. Ablationsstudien unterstreichen die wesentlichen Beiträge der visuellen und Aktionsrepräsentationen zu diesem Erfolg. Durch die Erweiterung unserer Bewertungen auf die reale Welt verbessert Ag2Manip die Erfolgsraten des Imitationslernens signifikant von 50 % auf 77,5 % und zeigt damit seine Wirksamkeit und Verallgemeinerbarkeit in simulierten und physischen Umgebungen.
Die bedeutende Rolle von Kleidung für das menschliche Erscheinungsbild unterstreicht die Bedeutung der Digitalisierung von Kleidungsstücken für die digitale Menschenerstellung. Die jüngsten Fortschritte in der 3D-Inhalteerstellung sind entscheidend für die digitale Menschenerstellung. Dennoch ist die Generierung von Kleidungsstücken aus Textanweisungen noch in den Kinderschuhen. Wir stellen ein textgesteuertes 3D-Kleidungsgenerierungs-Framework namens DressCode vor, das darauf abzielt, das Design für Anfänger zu demokratisieren und ein enormes Potenzial in der Modegestaltung, virtuellen Anproben und der digitalen Menschenerstellung bietet. Für unser Framework stellen wir zunächst SewingGPT vor, eine auf GPT basierende Architektur, die Kreuz-Aufmerksamkeit mit textkonditionierten Einbettungen integriert, um Nähanleitungen mit Textanweisungen zu generieren. Wir haben auch eine vortrainierte Stable Diffusion für die hochwertige, kachelbasierte PBR-Texturgenerierung angepasst. Durch die Nutzung eines großen Sprachmodells generiert unser Framework CG-freundliche Kleidungsstücke durch Interaktion in natürlicher Sprache. Unsere Methode erleichtert auch die Musterergänzung und Texturbearbeitung und vereinfacht den Prozess für Designer durch benutzerfreundliche Interaktion. Mit umfassenden Bewertungen und Vergleichen mit anderen State-of-the-Art-Methoden zeigt unsere Methode die beste Qualität und Übereinstimmung mit Eingabeaufforderungen. Benutzerstudien bestätigen unsere hochwertigen Rendering-Ergebnisse und heben deren praktischen Nutzen und Potenzial in Produktionsumgebungen hervor.