久久国产精品久久国产品这里,亚洲а∨天堂久久,国产真实露脸乱子伦原著,亚洲日韩国产中文有码

<i id="s5xwn"></i>

<ul id="s5xwn"></ul>

您的位置：首頁 >資訊 > 正文

每日看點！GAN卷土重來：10億參數(shù)的GigaGAN效果堪比擴(kuò)散模型

來源：程序員客棧2023-06-11 21:35:40

(相關(guān)資料圖)

點藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師”

設(shè)為星標(biāo)，干貨直達(dá)！

自從 DALL·E 2 之后，在圖像生成方面擴(kuò)散模型替代GAN成了主流方向，比如開源的文生圖模型stable diffusion也是基于diffusion架構(gòu)的。近日， Adobe研究者在論文Scaling up GANs for Text-to-Image Synthesis提出了參數(shù)量為10億（1B）的GAN模型：GigaGAN，其在文生圖效果上接近擴(kuò)散模型效果，而且推理速度更快，生成512x512大小圖像只需要0.13s，生成16M像素圖像只需要 3.66s。同時GigaGAN也支持latent空間的編輯功能，比如latent插值，風(fēng)格混合，以及向量運(yùn)算等。

GigaGAN

改進(jìn)了StyleGAN架構(gòu)，采用兩階段訓(xùn)練策略：一個是64x64的圖像生成器和一個512x512的圖像超分2器，其圖像生成器架構(gòu)如下所示（這里也是采用CLIP text encoder來引入text condition）：

GigaGAN

在 LAION2B-en和 COYO-700M數(shù)據(jù)集上訓(xùn)練，其在COCO數(shù)據(jù)集上的FID達(dá)到9.09，超過stable diffusion 1.5，推理速度比stable diffusion快20倍多（2.9s vs 0.13s）：

GigaGAN

除了文生圖能力，還可以實現(xiàn)可控的合成，比如風(fēng)格混合，如下圖所示：

更多效果圖和技術(shù)細(xì)節(jié)見論文https://arxiv.org/abs/2303.05511和網(wǎng)站https://mingukkang.github.io/GigaGAN/

關(guān)鍵詞：

最近更新

奢侈

熱點

領(lǐng)軍品牌創(chuàng)新驅(qū)動 | 唯美LD陶瓷斬獲第1

強(qiáng)者恒強(qiáng)，江鈴福特全順何以持續(xù)領(lǐng)跑輕客市

IC創(chuàng)業(yè)盛會再啟第二屆集成電路“太湖之芯

華熙LIVE·五棵松入選新一批“夜京城”特色

一起跑，向未來！鴻日汽車集團(tuán)28周年慶活力

48小時頻道點擊排行