Nowości - OpenAI Point E: Utwórz chmurę punktów 3D ze złożonych przebiegów w ciągu kilku minut na jednym GPU

W nowym artykule Point-E: System do generowania chmur punktów 3D ze złożonych sygnałów zespół badawczy OpenAI przedstawia Point E, system warunkowej syntezy tekstu chmury punktów 3D, który wykorzystuje modele dyfuzji do tworzenia zróżnicowanych i złożonych kształtów 3D opartych na złożonym tekście wskazówki.w ciągu kilku minut na jednym GPU.
Niesamowita wydajność dzisiejszych najnowocześniejszych modeli generowania obrazów pobudziła badania nad generowaniem trójwymiarowych obiektów tekstowych.Jednak w przeciwieństwie do modeli 2D, które mogą generować dane wyjściowe w ciągu kilku minut, a nawet sekund, modele generatywne obiektów zwykle wymagają kilku godzin pracy procesora graficznego, aby wygenerować pojedynczą próbkę.
W nowym artykule Point-E: System do generowania chmur punktów 3D ze złożonych sygnałów zespół badawczy OpenAI przedstawia Point·E, tekstowy system syntezy warunkowej chmur punktów 3D.To nowe podejście wykorzystuje model propagacji do tworzenia zróżnicowanych i złożonych kształtów 3D ze złożonych sygnałów tekstowych w zaledwie minutę lub dwie na jednym GPU.
Zespół koncentruje się na wyzwaniu, jakim jest konwersja tekstu do formatu 3D, co ma kluczowe znaczenie dla demokratyzacji tworzenia treści 3D dla rzeczywistych zastosowań, od rzeczywistości wirtualnej i gier po projektowanie przemysłowe.Istniejące metody konwersji tekstu do formatu 3D dzielą się na dwie kategorie, z których każda ma swoje wady: 1) modele generatywne mogą być wykorzystywane do wydajnego generowania próbek, ale nie mogą być efektywnie skalowane dla różnorodnych i złożonych sygnałów tekstowych;2) wstępnie wyszkolony model tekstowo-obrazowy do obsługi złożonych i zróżnicowanych wskazówek tekstowych, ale to podejście wymaga intensywnych obliczeń, a model może łatwo utknąć w lokalnych minimach, które nie odpowiadają sensownym lub spójnym obiektom 3D.
Dlatego zespół zbadał alternatywne podejście, które ma na celu połączenie mocnych stron powyższych dwóch podejść, przy użyciu modelu dyfuzji tekstu do obrazu wyszkolonego na dużym zestawie par tekst-obraz (pozwalając na obsługę różnorodnych i złożonych sygnałów) oraz model dyfuzji obrazu 3D przeszkolony na mniejszym zestawie par tekst-obraz.zestaw danych pary obraz-3D.Model zamiany tekstu na obraz najpierw pobiera próbkę obrazu wejściowego, aby utworzyć pojedynczą syntetyczną reprezentację, a model zamiany obrazu na obraz 3D tworzy trójwymiarową chmurę punktów na podstawie wybranego obrazu.
Stos generatywny polecenia jest oparty na niedawno zaproponowanych ramach generatywnych do warunkowego generowania obrazów z tekstu (Sohl-Dickstein i in., 2015; Song i Ermon, 2020b; Ho i in., 2020).Wykorzystują model GLIDE z 3 miliardami parametrów GLIDE (Nichol i in., 2021), dopracowany na renderowanych modelach 3D, jako model transformacji tekstu na obraz, oraz zestaw modeli dyfuzji, które generują chmury punktów RGB jako ich model transformacji.obrazy do obrazu.modele 3D.
Podczas gdy poprzednie prace wykorzystywały architektury 3D do przetwarzania chmur punktów, naukowcy wykorzystali prosty model oparty na przetwornikach (Vaswani i in., 2017), aby poprawić wydajność.W ich architekturze modelu dyfuzyjnego obrazy chmur punktów są najpierw wprowadzane do wstępnie wytrenowanego modelu ViT-L/14 CLIP, a następnie wyjściowe siatki są wprowadzane do konwertera jako znaczniki.
W badaniu empirycznym zespół porównał proponowaną metodę Point·E z innymi generatywnymi modelami 3D w zakresie sygnałów punktowych pochodzących z wykrywania obiektów, segmentacji i zbiorów danych sygnatur COCO.Wyniki potwierdzają, że Point·E jest w stanie generować różnorodne i złożone kształty 3D ze złożonych sygnałów tekstowych i przyspieszać czas wnioskowania o jeden do dwóch rzędów wielkości.Zespół ma nadzieję, że ich praca zainspiruje do dalszych badań nad syntezą tekstu 3D.
Wstępnie wyszkolony model propagacji chmury punktów i kod ewaluacyjny są dostępne w serwisie GitHub projektu.Document Point-E: System do tworzenia chmur punktów 3D ze złożonych wskazówek jest dostępny na arXiv.
Wiemy, że nie chcesz przegapić żadnych wiadomości ani odkryć naukowych.Subskrybuj nasz popularny biuletyn Synced Global AI Weekly, aby otrzymywać cotygodniowe aktualizacje AI.

Czas postu: 28 grudnia 2022 r