Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die fortschrittlichsten multimodalen Modelle von heute bleiben proprietär. Die stärksten Open-Weight-Modelle stützen sich stark auf synthetische Daten von proprietären VLMs, um gute Leistungen zu erzielen, indem sie diese geschlossenen Modelle effektiv in offene umwandeln. Als Ergebnis fehlt der Community immer noch grundlegendes Wissen darüber, wie performante VLMs von Grund auf aufgebaut werden können. Wir stellen Molmo vor, eine neue Familie von VLMs, die in ihrer Offenheitsklasse auf dem neuesten Stand sind. Unsere Schlüsselinnovation ist ein neuartiger, hochdetaillierter Bildunterschrift-Datensatz, der vollständig von menschlichen Annotatoren unter Verwendung sprachbasierter Beschreibungen gesammelt wurde. Um eine Vielzahl von Benutzerinteraktionen zu ermöglichen, führen wir auch eine vielfältige Datensatzmischung für Feinabstimmung ein, die in-the-wild Q&A und innovative 2D-Zeigedaten umfasst. Der Erfolg unseres Ansatzes beruht auf sorgfältigen Entscheidungen für die Modellarchitekturdetails, einer gut abgestimmten Trainingspipeline und, am wichtigsten, der Qualität unserer neu gesammelten Datensätze, die alle veröffentlicht werden. Das bestplatzierte 72B-Modell innerhalb der Molmo-Familie übertrifft nicht nur andere Modelle in der Offenheitsklasse und Datenmodelle, sondern vergleicht sich auch positiv mit proprietären Systemen wie GPT-4o, Claude 3.5 und Gemini 1.5 sowohl in akademischen Benchmarks als auch in der menschlichen Bewertung. Wir werden in naher Zukunft alle unsere Modellgewichte, Bildunterschriften- und Feinabstimmungsdaten sowie den Quellcode veröffentlichen. Ausgewählte Modellgewichte, Inferenzcode und Demos sind unter https://molmo.allenai.org verfügbar.
Die Vorbereitung großer Sprachmodelle beruhte traditionell auf menschlichen Experten, die Heuristiken zur Verbesserung der Qualität der Korpora entwickelten, was zu zahlreichen bis heute entwickelten Regeln führte. Diese Regeln sind jedoch nicht flexibel genug, um die einzigartigen Merkmale einzelner Beispiele effektiv anzugehen. Gleichzeitig ist es für menschliche Experten unpraktisch, maßgeschneiderte Regeln auf jedes Beispiel anzuwenden. In diesem Artikel zeigen wir, dass selbst kleine Sprachmodelle mit nur 0,3 Mrd. Parametern erhebliche Datenverfeinerungsfähigkeiten aufweisen können, die mit denen von menschlichen Experten vergleichbar sind. Wir stellen Programming Every Example (ProX) vor, ein neuartiges Framework, das die Datenverfeinerung als Programmieraufgabe behandelt und es Modellen ermöglicht, Korpora zu verfeinern, indem sie feingranulare Operationen wie Zeichenfolgennormalisierung für jedes einzelne Beispiel im großen Maßstab generieren und ausführen. Experimentelle Ergebnisse zeigen, dass Modelle, die auf von ProX kuratierten Daten vorab trainiert wurden, in verschiedenen nachgelagerten Benchmarks um mehr als 2% besser abschneiden als die ursprünglichen Daten oder Daten, die durch andere Auswahlmethoden gefiltert wurden. Die Wirksamkeit erstreckt sich über verschiedene Modellgrößen und Vorabtrainingskorpora, einschließlich C4, RedPajama-V2 und FineWeb. Darüber hinaus zeigt ProX ein signifikantes Potenzial bei der kontinuierlichen Vorabtrainierung in domänenspezifischen Bereichen: Ohne domänenspezifisches Design übertreffen Modelle, die auf OpenWebMath trainiert und von ProX verfeinert wurden, methodenbasierte Regelmethoden, indem sie die durchschnittliche Genauigkeit um 7,6% gegenüber Mistral-7B verbessern, mit 14,6% für Llama-2-7B und 20,3% für CodeLlama-7B, alles innerhalb von 10 Mrd. Tokens, um mit Modellen wie Llemma-7B vergleichbar zu sein, die auf 200 Mrd. Tokens trainiert wurden. Eine weitere Analyse zeigt, dass ProX signifikant Training-FLOPs spart und einen vielversprechenden Weg für eine effiziente LLM-Vorabtrainierung bietet. Wir stellen ProX mit einem Korpus von >100 Mrd., Modellen und teilen alle Schulungs- und Implementierungsdetails für reproduzierbare Forschung und zukünftige Innovationen als Open-Source zur Verfügung. Code: https://github.com/GAIR-NLP/ProX
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in der natürlichen Sprachverarbeitung gezeigt, jedoch begrenzen ihre faktischen Ungenauigkeiten und Halluzinationen ihre Anwendung, insbesondere in kritischen Bereichen wie dem Gesundheitswesen. Kontextabrufmethoden sind als entscheidender Ansatz zur Verbesserung der Faktentreue und Zuverlässigkeit von LLMs aufgekommen, indem sie relevante Informationen als Eingabe einführen. Diese Studie erforscht die Grenzen von Kontextabrufmethoden im Gesundheitswesen, optimiert ihre Komponenten und vergleicht ihre Leistung mit offenen und geschlossenen Alternativen. Unsere Ergebnisse zeigen, wie offene LLMs, wenn sie mit einem optimierten Abrufsystem ergänzt werden, eine Leistung erzielen können, die mit den größten privaten Lösungen auf etablierten Gesundheitsbenchmarks (Frage-Antwort-Systeme mit mehreren Auswahlmöglichkeiten) vergleichbar ist. Angesichts der fehlenden Realitätsnähe bei der Einbeziehung der möglichen Antworten in die Frage (eine Konfiguration, die nur in medizinischen Prüfungen vorkommt) und nach der Feststellung eines starken Leistungsabfalls von LLMs in Abwesenheit dieser Optionen erweitern wir das Kontextabrufsystem in diese Richtung. Insbesondere schlagen wir OpenMedPrompt vor, eine Pipeline, die die Generierung zuverlässigerer offener Antworten verbessert und diese Technologie näher an die praktische Anwendung heranführt.
Durch die Nutzung vorab trainierter 2D-Diffusionsmodelle und Score-Distillationssampling (SDS) haben aktuelle Methoden vielversprechende Ergebnisse bei der Generierung von Text-zu-3D-Avataren gezeigt. Die Erzeugung hochwertiger 3D-Avatare, die expressive Animationen ermöglichen, bleibt jedoch eine Herausforderung. In dieser Arbeit präsentieren wir DreamWaltz-G, ein neuartiges Lernrahmenwerk für die Generierung von animierbaren 3D-Avataren aus Text. Der Kern dieses Rahmens liegt in der Skeleton-geführten Score-Distillation und der hybriden 3D-Gaußschen Avatar-Repräsentation. Insbesondere integriert die vorgeschlagene skeleton-geführte Score-Distillation Skelettsteuerungen aus 3D-Menschenvorlagen in 2D-Diffusionsmodelle, was die Konsistenz der SDS-Überwachung in Bezug auf Ansicht und menschliche Pose verbessert. Dies erleichtert die Generierung hochwertiger Avatare und mildert Probleme wie mehrere Gesichter, zusätzliche Gliedmaßen und Unschärfe. Die vorgeschlagene hybride 3D-Gaußsche Avatar-Repräsentation baut auf effizienten 3D-Gaußschen auf, die neuronale implizite Felder und parametrisierte 3D-Gitter kombinieren, um eine Echtzeit-Renderung, stabile SDS-Optimierung und expressive Animation zu ermöglichen. Umfangreiche Experimente zeigen, dass DreamWaltz-G äußerst effektiv bei der Generierung und Animation von 3D-Avataren ist und bestehende Methoden sowohl in visueller Qualität als auch in Animationsausdruck übertrifft. Unser Rahmenwerk unterstützt zudem vielfältige Anwendungen, einschließlich der Nachstellung von menschlichen Videos und der Mehrfachsubjekt-Szenenzusammensetzung.
In den letzten Entwicklungen im Bereich der differenzierbaren und neuronalen Darstellung wurden beeindruckende Durchbrüche in einer Vielzahl von 2D- und 3D-Aufgaben erzielt, z. B. bei der Synthese neuer Ansichten und der 3D-Rekonstruktion. Typischerweise basiert die differenzierbare Darstellung auf einer dichten Abdeckung des Sichtpunkts der Szene, sodass die Geometrie allein aus Erscheinungsbeobachtungen heraus aufgelöst werden kann. Mehrere Herausforderungen entstehen, wenn nur wenige Eingabesichten verfügbar sind, oft als spärliche oder few-shot neuronale Darstellung bezeichnet. Da es sich um ein unterbestimmtes Problem handelt, führen die meisten bestehenden Ansätze die Verwendung von Regularisierung ein, zusammen mit einer Vielfalt von erlernten und handgefertigten Prioritäten. Ein wiederkehrendes Problem in der spärlichen Darstellungsliteratur ist der Mangel an einem homogenen, aktuellen Datensatz und Evaluierungsprotokoll. Während hochauflösende Datensätze in der dichten Rekonstruktionsliteratur Standard sind, evaluieren spärliche Darstellungsmethoden oft mit niedrig aufgelösten Bildern. Darüber hinaus sind Datenaufteilungen inkonsistent zwischen verschiedenen Manuskripten, und Test-Referenzbilder sind oft öffentlich verfügbar, was zu Überanpassung führen kann. In dieser Arbeit schlagen wir den Sparse Rendering (SpaRe) Datensatz und Benchmark vor. Wir stellen einen neuen Datensatz vor, der dem Setup des DTU MVS-Datensatzes folgt. Der Datensatz besteht aus 97 neuen Szenen auf der Basis synthetischer, hochwertiger Assets. Jede Szene hat bis zu 64 Kameraperspektiven und 7 Beleuchtungskonfigurationen, gerendert mit einer Auflösung von 1600x1200. Wir veröffentlichen einen Trainingsdatensatz von 82 Szenen, um generalisierbare Ansätze zu fördern, und stellen eine Online-Evaluationsplattform für die Validierungs- und Testdatensätze bereit, deren Referenzbilder verborgen bleiben. Wir schlagen zwei verschiedene spärliche Konfigurationen vor (3 bzw. 9 Eingabebilder). Dies bietet ein leistungsstarkes und praktisches Werkzeug für reproduzierbare Evaluationen und ermöglicht Forschern einen einfachen Zugang zu einer öffentlichen Bestenliste mit den modernsten Leistungswerten. Verfügbar unter: https://sparebenchmark.github.io/
Diffusionsbasierte Bild-Superauflösungsmethoden haben bemerkenswerte Erfolge erzielt, indem sie große vortrainierte Text-zu-Bild-Diffusionsmodelle als Priors nutzen. Dennoch stehen diese Methoden vor zwei Herausforderungen: dem Erfordernis von Dutzenden von Abtastschritten, um zufriedenstellende Ergebnisse zu erzielen, was die Effizienz in realen Szenarien einschränkt, und der Vernachlässigung von Degradationsmodellen, die entscheidende Hilfsinformationen bei der Lösung des Superauflösungsproblems sind. In dieser Arbeit haben wir ein neuartiges Ein-Schritt-SR-Modell vorgestellt, das das Effizienzproblem von diffusionsbasierten SR-Methoden signifikant angeht. Anders als bestehende Feinabstimmungsstrategien haben wir ein Degradations-geführtes Low-Rank-Adaptations (LoRA)-Modul speziell für SR entworfen, das die Modellparameter basierend auf den vorab geschätzten Degradationsinformationen aus Niedrigauflösungsbildern korrigiert. Dieses Modul erleichtert nicht nur ein leistungsstarkes datenabhängiges oder degradationsabhängiges SR-Modell, sondern bewahrt auch den generativen Prior des vortrainierten Diffusionsmodells so weit wie möglich. Darüber hinaus haben wir eine neuartige Trainingspipeline maßgeschneidert, indem wir eine Online-Negativstichprobenerzeugungsstrategie einführen. In Kombination mit der klassifiziererfreien Leitstrategie während der Inferenz verbessert dies weitgehend die perzeptuelle Qualität der Superauflösungsergebnisse. Umfangreiche Experimente haben die überlegene Effizienz und Wirksamkeit des vorgeschlagenen Modells im Vergleich zu aktuellen State-of-the-Art-Methoden nachgewiesen.
Wir präsentieren einen neuartigen Ansatz zur Synthese geschickter Bewegungen für physisch simulierte Hände bei Aufgaben, die eine Koordination zwischen der Steuerung von zwei Händen mit hoher zeitlicher Präzision erfordern. Anstatt direkt eine gemeinsame Richtlinie zum Steuern von zwei Händen zu erlernen, führt unser Ansatz eine bimanuelle Steuerung durch kooperatives Lernen durch, bei dem jede Hand als individueller Agent behandelt wird. Die individuellen Richtlinien für jede Hand werden zunächst getrennt trainiert und dann durch Manipulation des latenten Raums in einer zentralisierten Umgebung synchronisiert, um als gemeinsame Richtlinie für die Steuerung mit beiden Händen zu dienen. Auf diese Weise vermeiden wir es, das Richtlinienlernen direkt im gemeinsamen Zustands-Aktionsraum von zwei Händen mit höheren Dimensionen durchzuführen, was die Gesamt-Trainierungseffizienz erheblich verbessert. Wir zeigen die Wirksamkeit unseres vorgeschlagenen Ansatzes in der anspruchsvollen Aufgabe des Gitarrenspielens. Der virtuelle Gitarrist, der mit unserem Ansatz trainiert wurde, kann Bewegungen aus unstrukturierten Referenzdaten allgemeiner Gitarrenspielbewegungen synthetisieren und präzise verschiedene Rhythmen mit komplexen Akkorddruck- und Saitenanschlagsmustern basierend auf den Eingabe-Gitarrentabs spielen, die in den Referenzen nicht vorhanden sind. Zusammen mit diesem Papier stellen wir die von uns gesammelten Motion-Capture-Daten als Referenz für das Richtlinientraining zur Verfügung. Der Code ist verfügbar unter: https://pei-xu.github.io/guitar.
Große Sprachmodelle (LLMs) haben die Softwaretechnik (SE) revolutioniert und zeigen bemerkenswerte Fähigkeiten bei verschiedenen Kodieraufgaben. Während jüngste Bemühungen autonome Softwareagenten auf Basis von LLMs für End-to-End-Entwicklungsaufgaben hervorgebracht haben, sind diese Systeme typischerweise für spezifische SE-Aufgaben konzipiert. Wir stellen HyperAgent vor, ein neuartiges generalistisches Multi-Agenten-System, das entworfen wurde, um eine breite Palette von SE-Aufgaben in verschiedenen Programmiersprachen zu bewältigen, indem es die Arbeitsabläufe menschlicher Entwickler nachahmt. Bestehend aus vier spezialisierten Agenten - Planer, Navigator, Code-Editor und Ausführer - verwaltet HyperAgent den gesamten Lebenszyklus von SE-Aufgaben, von der ersten Konzeption bis zur abschließenden Verifizierung. Durch umfangreiche Bewertungen erzielt HyperAgent Spitzenleistungen bei verschiedenen SE-Aufgaben: Es erreicht eine Erfolgsquote von 25,01% bei SWE-Bench-Lite und 31,40% bei SWE-Bench-Verified für die Lösung von GitHub-Problemen und übertrifft dabei bestehende Methoden. Darüber hinaus zeigt HyperAgent Spitzenleistungen bei der Codegenerierung auf Repository-Ebene (RepoExec) sowie bei der Fehlerlokalisierung und Programmreparatur (Defects4J) und übertrifft oft spezialisierte Systeme. Diese Arbeit stellt einen bedeutenden Fortschritt hin zu vielseitigen, autonomen Agenten dar, die komplexe, mehrstufige SE-Aufgaben in verschiedenen Bereichen und Sprachen bewältigen können und damit potenziell die Praktiken der KI-unterstützten Softwareentwicklung transformieren.
Videos sind zu einem beliebten Medium für den Austausch und die Konsumierung von Informationen geworden. Das Anfertigen von Notizen während des Videoanschauens erfordert jedoch erhebliche Zeit und Mühe. Um diesem Problem zu begegnen, schlagen wir ein neuartiges interaktives System namens NoTeeline vor, um Echtzeit- und personalisierte Notizen anzufertigen. NoTeeline ermöglicht es den Benutzern, schnell Schlüsselpunkte (Mikronotizen) festzuhalten, die automatisch in umfassende Notizen umgewandelt werden, die den Inhalt der Mikronotizen des Benutzers erfassen und mit dem Schreibstil des Benutzers übereinstimmen. In einer Studie mit derselben Stichprobe (N=12) stellten wir fest, dass NoTeeline den Benutzern hilft, hochwertige Notizen zu erstellen, die die Essenz ihrer Mikronotizen mit einer höheren faktischen Korrektheit (93,2%) erfassen und gleichzeitig ihren Schreibstil genau widerspiegeln. Während der Nutzung von NoTeeline erlebten die Teilnehmer signifikant reduzierten mentalen Aufwand, erstellten zufriedenstellende Notizen, während sie 47% weniger Text verfassten, und beendeten die Notizenerstellung in 43,9% weniger Zeit im Vergleich zu einer manuellen Notizenerstellung als Basislinie.
Die auf Vision basierende geolokalisierungstechnologie für UAVs, die als sekundäre Quelle von GPS-Informationen zusätzlich zu den globalen Navigationssatellitensystemen (GNSS) dient, kann immer noch unabhängig in einer GPS-freien Umgebung betrieben werden. Aktuelle auf Deep Learning basierende Methoden betrachten dies als die Aufgabe des Bildabgleichs und der Rückgewinnung. Durch die Rückgewinnung von Drohnensichtbildern in einer geotagierten Satellitenbild-Datenbank können ungefähre Lokalisierungsinformationen erhalten werden. Aufgrund hoher Kosten und Datenschutzbedenken ist es jedoch in der Regel schwierig, große Mengen von Drohnensichtbildern aus einem kontinuierlichen Gebiet zu erhalten. Bestehende Drohnensicht-Datensätze bestehen größtenteils aus Luftaufnahmen im kleinen Maßstab mit der starken Annahme, dass es ein perfekt eins-zu-eins ausgerichtetes Referenzbild für jede Abfrage gibt, was eine signifikante Lücke zum praktischen Lokalisierungsszenario hinterlässt. In dieser Arbeit erstellen wir einen großflächigen zusammenhängenden UAV-Geolokalisierungsdatensatz namens GTA-UAV, der mehrere Flughöhen, Ausrichtungen, Szenen und Ziele mithilfe moderner Computerspiele zeigt. Basierend auf diesem Datensatz führen wir eine praxisnähere UAV-Geolokalisierungsaufgabe ein, die teilweise Übereinstimmungen von kreuzweise gepaarten Daten umfasst, und erweitern die Bildrückgewinnung auf die tatsächliche Lokalisierung in Bezug auf die Entfernung (Meter). Für die Erstellung von Drohnen- und Satellitenbild-Paaren verwenden wir einen gewichtsbasierten kontrastiven Lernansatz, der ein effektives Lernen ermöglicht, während zusätzliche Nachbearbeitungsschritte vermieden werden. Experimente zeigen die Wirksamkeit unserer Daten und Trainingsmethode für die UAV-Geolokalisierung sowie die Verallgemeinerungsfähigkeiten auf reale Szenarien.
Wir stellen ein neuartiges Framework vor, das ein dynamisches neuronales Strahlungsfeld (NeRF) für sprechende Menschen im Ganzkörper aus monokularen Videos lernt. Frühere Arbeiten stellen nur die Körperhaltung oder das Gesicht dar. Menschen kommunizieren jedoch mit ihrem gesamten Körper, indem sie Körperhaltung, Handgesten sowie Gesichtsausdrücke kombinieren. In dieser Arbeit schlagen wir TalkinNeRF vor, ein vereinheitlichtes NeRF-basiertes Netzwerk, das die ganzheitliche 4D-Menschendarstellung ermöglicht. Anhand eines monokularen Videos einer Person lernen wir entsprechende Module für den Körper, das Gesicht und die Hände, die zusammengeführt werden, um das endgültige Ergebnis zu generieren. Um komplexe Fingerbewegungen zu erfassen, lernen wir ein zusätzliches Deformationsfeld für die Hände. Unsere Multi-Identitäts-Repräsentation ermöglicht simultanes Training für mehrere Personen sowie eine robuste Animation unter völlig neuen Posen. Sie kann auch auf neue Identitäten verallgemeinern, basierend nur auf einem kurzen Video als Eingabe. Wir zeigen eine Leistung auf dem neuesten Stand der Technik für die Animation von sprechenden Menschen im Ganzkörper, mit feingliedriger Handbewegung und Gesichtsausdrücken.
Wir präsentieren einen einfachen, selbstüberwachten Ansatz für das Problem des Verfolgens beliebiger Punkte (TAP). Wir trainieren einen globalen Matching-Transformer, um zyklisch konsistente Spuren durch Videos mithilfe kontrastiver Zufallswanderungen zu finden, wobei die auf Aufmerksamkeit basierende globale Zuordnung des Transformers verwendet wird, um die Übergangsmatrizen für eine Zufallswanderung auf einem Raum-Zeit-Graph zu definieren. Die Fähigkeit, "Alle-Paare"-Vergleiche zwischen Punkten durchzuführen, ermöglicht es dem Modell, eine hohe räumliche Präzision zu erzielen und ein starkes kontrastives Lernsignal zu erhalten, während viele der Komplexitäten aktueller Ansätze (wie grob-zu-feines Matching) vermieden werden. Hierfür schlagen wir eine Reihe von Designentscheidungen vor, die es globalen Matching-Architekturen ermöglichen, durch Selbstüberwachung unter Verwendung von Zykluskonsistenz trainiert zu werden. Beispielsweise stellen wir fest, dass auf Transformer basierende Methoden empfindlich auf Shortcut-Lösungen reagieren und schlagen ein Datenaugmentierungsschema vor, um diese zu behandeln. Unsere Methode erzielt starke Leistungen auf den TapVid-Benchmarks, übertrifft bisherige selbstüberwachte Tracking-Methoden wie DIFT und ist wettbewerbsfähig mit mehreren überwachten Methoden.