Ai Image Creator 人工智慧繪圖簡述

前言

在Ai技術發展逐漸成熟下，許多軟體透過Ai可以有更方便的流程或是新的應用，也因為NLP自然語言處理與機器學習技術比以往成熟，電腦能夠更理解人類的語言，並從中給出更貼近人們所需的解答，最好的例子就是ChatGPT，而Ai不光只是回答問題而已，除了檢索資料、回答問題之外，現在Ai功能還可以生成圖片、影片等，本篇文章將針對Ai繪圖功能進行簡述說明，包含介紹Ai技術是如何生成圖片、目前熱門的Ai繪圖工具，並從中選擇熱門的繪圖工具進行實際使用與產出。

接下來將會依據以下幾個主題進行敘述：

人工智慧是如何生成圖片。

目前有哪些熱門的Ai繪圖工具?

Ai繪圖工具產出作品。

人工智慧是如何生成圖片?

人工智慧(Ai)生成圖片的過程主要依賴生成模型(Generative Models)的技術。這些模型能夠從數據中學習，並生成新的數據樣本。當Ai生成圖片時，最常使用的技術是生成對抗網路(GANs)。這是生成圖片的一種非常有效的方法，在生成圖片的過程中(使用生成對抗網絡)會有兩個主要的技術部分，生成對抗網路(GANs)中的生成器(Generator)會負責“創造”圖片。由生成器去接收一些隨機的數字，然後試圖把這些數字轉換成看起來像真實的圖片，可以想像生成器就是一個畫家，他要從一些模糊的想法中畫出一幅畫。判別器(Discriminator)是負責判斷圖片真假的部分。它會查看圖片，然後決定圖片是“真實的”還是“偽造的”，可以想像判別器是一個圖片評論家，專門挑錯生成器畫家畫的畫，並指出哪些地方不像真的。

生成對抗網路(GANs)在生成圖片的訓練過程中，生成器(畫家)和判別器(評論家)會互相競爭。生成器會不斷改進自己生成圖片的能力，以便“騙”過判別器；而判別器則不斷學習，以更好地去區分真實圖片和生成的圖片。隨著時間的推移，生成器會變得越來越擅長創造看起來像真的圖片，而判別器也變得越來越擅長區分真實與假圖片。在這個生成圖片的過程因為透過不斷的競爭和改進，最終會使生成器能夠創造出非常逼真的圖片，這也是現在許多Ai生成的圖片連人們都不知道是由Ai生成的。

生成對抗網路模型圖(GANs)

除了生成對抗網路(GANs)可以生成圖片外，還有其他生成模型能夠生成圖片。以下為其他可以生成圖片的生成模型簡述說明：

變分自編碼器(VAEs)

變分自編碼器是一種生成模型，它可以通過學習數據的潛在分佈來生成新樣本。

變分自編碼器(VAEs)生成圖片的主要原理：

編碼器(Encoder)：編碼器的作用是將輸入的圖片壓縮成一個潛在向量。這個潛在向量是一組數字，它們以壓縮的形式表示圖片的關鍵特徵。例如：想像你用一些關鍵詞來描述一幅畫。這些關鍵詞不是畫的全部內容，但它們能夠概括畫的主要特徵。這些關鍵詞就是潛在向量。
潛在空間(Latent Space)：這是一個虛擬的空間，圖片的潛在向量就位於這裡。VAEs 的特點之一是它不僅生成一個潛在向量，而是生成一個分佈，表示這個潛在向量可能是什麼樣的。例如：你給出了一個描述的範圍，而不是精確的描述，你可能會說畫中有“像玫瑰般的鮮紅色”，而不是精確地說出該紅色的色號。
解碼器(Decoder)：解碼器的作用是從潛在向量重建圖片。它將潛在向量轉換回圖像空間，生成與原始輸入圖片相似的圖片。解碼器就像是根據你給出的關鍵詞重新創作一幅畫。它不一定完全還原原畫，但會創作出風格和內容相似的作品。

變分自編碼器(VAEs)訓練過程

在訓練過程中，VAEs 通過最小化重建損失（重建的圖片與原始圖片的差異）和正則化損失（使得潛在向量的分佈接近於高斯分佈）來學習。

重建損失：保證解碼器生成的圖片與原始圖片盡量相似。
正則化損失：保證潛在向量的分佈是連續且平滑的，這有助於生成多樣且連續的圖片。

自回歸模型

自回歸模型生成圖片的方式是透過逐步生成圖片的一部分，並且每一步都基於之前生成的內容。這樣的生成方式使得生成的圖片能夠保持一致性和連貫性。

自回歸模型的優點

逐步生成：自回歸模型生成圖片時，不是一次性生成整個圖片，而是一次生成一個像素或一個區域。每生成一部分，模型會考慮之前生成的部分，然後根據這些信息來決定下一部分的內容。
考慮上下文：這些模型非常依賴上下文信息。也就是說，當它們在生成某個像素時，會參考之前已生成的像素。這樣做的好處是可以保證生成的圖片在細節上是一致的，並且能夠捕捉到圖片內部的複雜關係和結構。

自回歸模型生成圖片的兩個主要部份：

像素CNN（PixelCNN）：這是一種自回歸模型，使用卷積神經網絡來依賴之前生成的像素。它能夠捕捉到圖片的局部依賴性，例如某個區域的顏色變化。
像素RNN（PixelRNN）：這是一種使用遞歸神經網絡的自回歸模型，它通常更適合捕捉長距離的依賴性，例如圖片中不同區域之間的相關性。

舉例說明

想像你要畫一幅畫，而你只能一次畫一個點(像素)，你先畫了左上角的一個點，可能是黃色的。接下來，你畫這個點旁邊的點，你會考慮這個點是黃色的，所以你可能會選擇畫一個相似顏色的點來保持一致。你繼續這樣畫，每次都考慮你之前畫的點的顏色和位置，直到畫出整幅畫。在這個過程中，自回歸模型就像一個非常有耐心的畫家，一步一步地仔細描繪每個細節，並且每次都考慮到之前的工作，以確保整體的和諧和一致。

[!IMPORTANT]
這些生成模型的技術都很依賴於深度學習模型，尤其是神經網路來進行訓練和生成。生成模型的能力在於能夠從大量的真實數據中學習並生成新的、逼真的數據樣本，這些樣本可以是圖像、音頻、文本等各種形式。

目前有哪些熱門的Ai繪圖工具?

HitPaw FotorPea

HitPaw FotorPea(原名稱為HitPaw Photo AI)是一個照片編輯的軟體，由軟體公司HitPaw發行，可支援Windows與Mac的作業系統。HitPaw FotorPea可說是多合一的AI照片編輯工具，其網站有主推四大功能包括畫質修復、Ai繪圖、物件移除、圖片去背。AI圖片生成的功能流程十分簡單，使用者可以輸入提示詞，並從樣板選擇喜歡的風格，按下創作就可以等待HitPaw自動生成。或是也可以上傳照片，再輸入提示詞修飾。

HitPaw FotorPea 功能介面

HitPaw FotorPea 生成圖片選擇

HitPaw FotorPea 自動生成

Midjourney

Midjourney是一個由位於舊金山獨立研究室所開發的Ai自動生成圖片服務，目前可支援 Windows、Mac、iOS與Android。因為Midjourney目前服務僅透過Discord提供，所以使用者必須先註冊Discord帳戶。使用者只需要在Discord聊天室中輸入你想要的圖片特徵自然語法指令，電腦就會自動依據文字來完成運算處理並且產生圖像。

DALL-E

DALL-E是由OpenAI推出的線上AI圖像生成工具。當輸入文字詞後，DALL-E會根據輸入的文字自動繪圖出AI圖片。目前Open-AI已有推出更新的DALL-E 2與DALL-E 3的版本。

DreamStudio

DreamStudio是由另一個深度學習文生圖模型 Stable Diffusion 所推出的Ai繪圖服務。使用者輸入製圖的文字提示到命令框內，選擇繪圖風格再點擊「Dream」，DreamStudio將自動完成所有工作。

DreamStudio 功能介面

Fotor AI

Fotor文字轉圖片AI生成器使用生成模型來創建AI生成圖像。其生成模型包括GAN和VAE兩種。在Fotor的圖像AI生成器框中輸入圖像的關鍵詞，Fotor AI將自動完成所有工作。

Fotor AI 功能介面

Ai繪圖工具產出作品

使用HitPaw FotorPea生成的作品

輸入提示詞為：A futuristic city with towering glass buildings and glowing neon lights, where flying cars navigate through the sky.

使用DreamStudio生成的作品

輸入提示詞為：Luxury sports car with aggressive lines, shot in a high contrast, high key lighting with shallow depth of field, detailed, sporty, sleek, studio lighting.

118884_Luxury sports car with aggressive lines, shot in a_xl-1024-v1-0

使用Fotor Ai生成的作品

輸入提示詞為：RAW phoro, a girl, light rays, lightgeo, elegant, highly detailed, digital painting,Sense of technology, melting skin, sacred geometry, surreal futurism.

fotor-ai-20240729134027

總結

Ai繪圖利用生成式Ai技術透過使用者輸入的繪圖文字指令及所選擇的繪圖風格，來產生與描述相符的Ai圖像作品。其帶來的除了便利性外，還多了訓練模型的繪圖可能性。但隨之而來的是關於Ai繪圖的爭議，在各地都有相關Ai繪圖的爭議事件報導，對於Ai繪圖最具爭議性的部分就是Ai繪圖的著作權歸屬問題，因Ai圖像生成工具本身的原始素材有些並非都是經過合法授權，但經過生成後的「作品」，竟然還可以被廣泛地應用在各種商業用途上，甚至有人會拿Ai繪圖的作品參賽，這讓許多「人類藝術家」非常憤怒甚至認為自己被侵權。

Ai繪圖版權方面的疑慮是目前在Ai創作過程中，最眾說紛紜且沒有結論的羅生門。因為一旦你對Ai繪圖工具下了指令後，這些資料來源都是從「人類創作者」或是其他未知的作品巨量搜集而來，在生成過程當中充滿了不確定性和隨機抽樣，我們身為「人類創作者」，透過Ai能帶給我們更多創意與更有效率的工作流程，Ai的優勢在於能夠短時間快速產出有效率的「創意」，節省工作時長。關鍵就在於如何定義「合理的使用Ai繪圖」，包括使用Ai繪圖的目的和性質，使用方式是否帶有商業性。目前有許多Ai繪圖平台是有明確說明不能商用的規範，部分藝文競賽也會在條文寫上關於Ai使用的規範，隨著Ai技術發展應用愈發成熟，在Ai技術應用的規範上也勢必需要有所調整。

Language

Language

2024-08-07

Ai Image Creator 人工智慧繪圖簡述

Ai Image Creator 人工智慧繪圖簡述

前言

人工智慧是如何生成圖片?

生成對抗網路模型圖(GANs)

變分自編碼器(VAEs)

變分自編碼器(VAEs)生成圖片的主要原理：

變分自編碼器(VAEs)訓練過程

自回歸模型

自回歸模型的優點

自回歸模型生成圖片的兩個主要部份：

舉例說明

目前有哪些熱門的Ai繪圖工具?

HitPaw FotorPea

HitPaw FotorPea 功能介面

HitPaw FotorPea 生成圖片選擇

HitPaw FotorPea 自動生成

Midjourney

DALL-E

DreamStudio

DreamStudio 功能介面

Fotor AI

Fotor AI 功能介面

Ai繪圖工具產出作品

使用HitPaw FotorPea生成的作品

使用DreamStudio生成的作品

使用Fotor Ai生成的作品

總結

Reference