(資料圖片僅供參考)

點藍色字關注機器學習算法工程師

設為星標,干貨直達!

自從 DALL·E 2 之后,在圖像生成方面擴散模型替换GAN成了主流方向,比如開源的文生圖模型stable diffusion也是基于diffusion架構的。近日, Adobe研究者在論文Scaling up GANs for Text-to-Image Synthesis提出了參數量為10億(1B)的GAN模型:GigaGAN,其在文生圖功效上接近擴散模型功效,而且推理速度更快,生成512×512大小圖像只必须013s,生成16M像素圖像只必须 366s。同時GigaGAN也支持latent空間的編輯性能,比如latent插值,風格融合,以及向量運算等。

通博娛樂城返水查詢GigaGAN改進了StyleGAN架構,采用兩階段訓練通博娛樂城返水策略:一個是64×64的圖像生成器和一個512×512的圖像超分2器,其圖像生成器架構如下所示(這里也是采用通博娛樂城註冊頁面CLIP text encoder來引入text condit通博娛樂城代理支持ion):GigaGAN在 LAION2B-en和 COYO-700M數據集上訓練,其在COCO數據集上的F達到9,超過stable diffusion 15,推理速度比stable diffusion快20倍多(29s vs 013s):通博娛樂城如何贏錢GigaGAN除了文生圖本事,還可以實現可控的合成,比如風格融合,如下圖所示:更多功效圖和技術細節見論文sarxivorgabs230305511和網站smingukkanggithubioGigaGAN