在未來AI可能真的要取代繪師了
事先聲明,這篇文章的標題絕不是在聳人聽聞。事情的起因是今天早上在朋友圈看到同學在轉發一篇論文,名字叫《Create Anime Characters with AI !》(論文地址:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf)
打開一看,論文主要是通過各式屬性生成二次元人物的頭像,使用的方法是cGAN,效果非常impressive。
下圖左側為通過屬性blonde hair, twin tails, blush, smile, ribbon, red eyes生成的人物,右側是通過屬性silver hair, long hair, blush, smile, open mouth, blue eyes生成的人物,都表現得非常自然,完全看不出是機器自動生成的:
模型生成的隨機樣本:
固定cGAN噪聲部分生成的樣本,此時人物具有不同的屬性,但是面部細節和麵朝的角度基本一致:
更加令人興奮的是,作者搭建了一個網站,任何人都能隨時利用訓練好的模型生成圖像,進行實驗!網站的地址為:MakeGirls.moe
打開網站後需要等待進度條加載完畢,這個時候是在下載模型:
這裡的按鈕的含義都比較簡單,總的來說我們要先選定一些屬性(完全隨機也是可以的),然後點擊左側的generate按鈕生成:
完全隨機生成的結果,看起來非常好:
選擇髮色(Hair Color)為金色(Blonde),髮型(Hair Style)為雙馬尾(Twin Tail),點擊生成,效果同樣很贊!如下圖:
技術細節
我之前也寫過兩篇文章,一篇介紹了GAN的原理(GAN學習指南:從原理入門到製作生成Demo-https://zhuanlan.zhihu.com/p/24767059),一篇介紹了cGAN的原理(通過文字描述來生成二次元妹子!聊聊conditional GAN與txt2img模型-https://zhuanlan.zhihu.com/p/25542274),這兩篇文章都是以生成二次元人物來舉例,但是生成的結果都比較差,只能看出大概的雛形。
今天的這篇論文大的技術框架還是cGAN,只是對原來的生成過程做了兩方面的改進,一是使用更加干淨、質量更高的數據庫,二是GAN結構的改進,下面就分別進行說明。
-
改進一:更高質量的圖像庫
之前使用的訓練數據集大多數是使用爬蟲從Danbooru或Safebooru這類網站爬下來的,這類網站的圖片大多由用戶自行上傳,因此質量、畫風參差不齊,同時還有不同的背景。這篇文章的數據來源於getchu,這本身是一個遊戲網站,但是在網站上有大量的人物立繪,圖像質量高,基本出於專業畫師之手,同時背景統一:
除了圖像外,為了訓練cGAN,還需要圖像的屬性,如頭髮顏色、眼睛的顏色等。作者使用Illustration2Vec,一個預訓練的CNN模型來產生這些標籤。
-
改進二:GAN結構
此外,作者採取了和原始的GAN不同的結構和訓練方法。總的訓練框架來自於DRAGAN(arxiv:https://arxiv.org/pdf/1705.07215.pdf),經過實驗發現這種訓練方法收斂更快並且能產生更穩定的結果。
生成器G的結構類似於SRResNet(arxiv:https://arxiv.org/pdf/1609.04802.pdf)
判別器也要做一點改動,因為人物的屬性相當於是一種多分類問題,所以要把最後的Softmax改成多個Sigmoid:
詳細的訓練和參數設定可以參照原論文。
一些問題
雖然大多數的圖像樣本都比較好,但作者也提出了該模型的一些缺點。由於訓練數據中各個屬性的分佈不均勻,通過某些罕見的屬性組合生成出的圖片會發生模式崩壞。比如屬性帽子(hat)、眼鏡(glasses),不僅比較複雜,而且在訓練樣本中比較少見,如果把這些屬性組合到一起,生成的圖片的質量就比較差。
如下圖,左側為aqua hair, long hair, drill hair, open mouth, glasses, aqua eyes對應的樣本,右側為orange hair, ponytail, hat, glasses, red eyes, orange eyes對應的樣本,相比使用常見屬性生成的圖片,這些圖片的質量略差:
總結
這項工作確實令人印象深刻,生成的圖片質量非常之高,個人認為如果加以完善,完全可以在某種程度上替代掉插畫師的一部分工作。最後附上文中提到的一些資源:
-
網站:MakeGirls.moe(已有訓練好的模型,打開就可以嘗試生成)
-
論文:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf
-
Github:make.girls.moe(目前只有網站的js源碼,看介紹訓練模型的代碼會在近期放出)
原文地址
https://zhuanlan.zhihu.com/p/28488946