この記事は、絵画という垂直分野を切り口に、AIGC が現在の絵画ワークフローをどのように最適化できるかを紹介しています。これにより、今の時点で私から距離のある別の業界で、AIGC がすでに何を実現できているのか、何をもたらす可能性があるのか、私たちが何をできるのかを考えさせられます。
簡単な原理#
以下は私の理解に基づき、拡散モデル(Diffusion)を例にとって、その原理を簡単に説明します。
トレーニングプロセス
元の画像にノイズを加え、画像が徐々に純粋なノイズ画像に変わるようにします。その後、AI にこのプロセスの逆のプロセス、つまりノイズ画像から情報のある高解像度画像を得る方法を学習させます。その後、条件(例えば、説明文や画像)を使ってこのプロセスを制御し、どの条件でどのようにノイズを除去して特定の画像を生成するかを知るようにします。
潜在空間(latent space)
512x512 の解像度の画像は、512 * 512 * 3 の数字のセットです。画像を直接学習させると、AI は 786432 次元のデータを処理しなければならず、これは計算能力やコンピュータ性能に非常に高い要求をします。したがって、情報を圧縮する必要があり、圧縮された空間は「潜在空間」と呼ばれます。
もし私たちが 10000 人の情報リストを持っていて、兄弟である可能性のある 2 人を探したい場合、各行を処理するために全てを遍歴することになりますが、その量は 10000 になります。しかし、もし人の潜在空間を表す 3 次元座標系があれば、3 つの軸はそれぞれ身長、体重、誕生日であり、この 3 次元空間で 2 つの隣接する点を探すと、これらの隣接する点が表す人は高い確率で似ていることになります。このように多次元の情報は AI にとって処理しやすくなります。
人の認知も同様で、新しい事物を認識する際には、無意識に特徴を分類し、多次元的にラベル付けを行います。例えば、私たちは椅子とテーブルが同じカテゴリではないことを簡単に区別できます。なぜなら、体積という次元で彼らは明らかに異なるからです。
AI も同じことができ、もともと非常に大きなデータセットを多くの特徴次元に圧縮し、はるかに小さな「潜在空間」に変換します。したがって、画像を探すことは、このような空間で対応する座標点を探すようなものであり、その後、この座標点を一連の処理を通じて画像に変換します。
CLIP
私たちがさまざまなオンラインの AIGC サービスを使用する際、テキストから画像を生成する機能をよく利用します。テキストと画像の関係を確立するためには、AI が膨大な「テキスト - 画像」データで画像とテキストのマッチングを学習する必要があります。これが CLIP(Contrastive Language-Image Pre-Training / 対比式言語 - 画像事前学習)が行っていることです。
全体のプロセスは次のように要約できます:
- 画像エンコーダーが画像をピクセル空間(Pixel Space)からより小さな次元の潜在空間(Latent Space)に圧縮し、画像の本質的な情報を捉えます;
- 潜在空間内の画像にノイズを追加し、拡散プロセス(Diffusion Process)を行います;
- CLIP テキストエンコーダーを通じて入力された説明文を去ノイズプロセスの条件(Conditioning)に変換します;
- いくつかの条件に基づいて画像の去ノイズ(Denoising)を行い、生成画像の潜在表現を得ます。去ノイズのステップは、テキスト、画像、その他の形式を条件として柔軟に行うことができます(テキストを条件にする場合は text2img、画像を条件にする場合は img2img);
- 画像デコーダーが画像を潜在空間からピクセル空間に戻すことで最終画像を生成します。
ワークフローの例#
今、次のような要求を例にとります:ある人が「屋上の端に座ってカメラを見上げる女の子」のイラストを欲しがっています。(画像が小さい場合は右クリックして新しいタブで開いてください)
伝統的なワークフロー#
以下は、私が AI を使ってワークフローを最適化するためのいくつかの考え方で、使用するツールはローカルにデプロイされた AI 絵画の最も人気のあるツールである stable-diffusion-webui です。
バッチコンセプト図ワークフロー#
要求のコミュニケーションとコンセプト草案の段階で、大量のコンセプト図を迅速に生成し、クライアントが事前に望む図を選択できるようにします。これは、クライアントの要求が明確でないシーンに適しています。方向が決まった後、私たちはコンセプト図に基づいて創作を行います(AI の図を直接変更するのではなく)、再作業の確率が大幅に低下します。
この方法は依然として創作者が自ら創作する必要がありますが、生成された画像はすべて自分の創作であるため、その過程で自分の画風に合ったモデルをうまくトレーニングできます。今後のワークフローで使用できます。
後置 AI ワークフロー#
AI が生成した画像を結果とするワークフローで、創作者は草案と大まかな説明プロンプトを提供するだけで、AI が画像を生成します。この方法では、草案で全体のフレームを制御できますが、色や雰囲気は AI が処理します。これは私が個人的によく使う方法で、創作と自動化のバランスを取ることができます。
無人工絵画ワークフロー#
もう一つは、入力(説明文、画像、または直接のヒント)から画像を生成するワークフローで、自動化がさらに進みますが、私はこの方法があまり好きではありません。非常にシンプルで要求が高くない案件や、モデルがすでに非常に完成されている場合にのみ適用されます。いわゆる自動発送の AI 絵画は基本的にこの方法を使用しています。
上記に挙げたのは、私が以前試したいくつかのワークフローですが、これらのワークフローはシーンに応じて自分でカスタマイズして組み合わせることもできます。質の高い生成画像を使って自分のモデルを継続的にトレーニングした後、個人の画風を持つモデルを得ることができます。
これは、ジブリスタジオの画風にトレーニングされた LORA モデルが他のベースモデルと混合されたアバターで、「flower」というプロンプトが追加されたものです:
これらに加えて、stable diffusion は他のプラグインと組み合わせて多くのことを行うことができます。例えば、キャラクターデザインの初期参考として三視図をワンクリックで生成することができ、専門的なアートリソースが不足しているプロジェクトでは、これらの素材を直接使用することもできます。(想像してみてください、あなたが 648 を使って引いたのがこれだとしたら):
※ 現在国内の絵画界では AI に対して非常に敏感であり、興味を持つコミュニティである lofter は、AI 生成のアバターをサポートしたため、多くのサイト内アーティストがアカウントを削除しました。
現在の欠陥#
二次変更の困難#
伝統的な電子絵画では、画像をレイヤーに分けます。例えば、キャラクターの翼の装飾を別のレイヤーに描くことで、中期に翼の位置を自由に変更できます。骨格アニメーションを作成する場合も、部品を分解するのが容易です。しかし、私が入力した画像が全体の画像であり、AI も直接全体の画像を出力する場合、このモデルは伝統的なレイヤーロジックと一致しません。手動での詳細修正作業は少なくありません。クライアントがイラスト内の各オブジェクトの位置や形状を二次変更することを要求する場合、レイヤーがないため、変更するたびに他のオブジェクトに影響を与える可能性があります。また、変更の筆致と AI 自体の画像がうまく融合しにくく、全体のコストは少なくありません。
もし私が手や体の線画を AI に個別に提供し、AI に処理させてレイヤー化された部品を生成させ、他の部品も同様のプロセスを繰り返すと、最終的に体や手などの AI 処理された部品を組み合わせることになります。個別に処理し、最後に統合するというのは理想的なプロセスのように聞こえますが、各部品を個別に AI に提供すると、最終的に生成される各部品の統一性が不足し、ばらばらになります。例えば、生成された体の服は一つのスタイルであり、生成された腕の袖は体の服と異なる可能性があります。彼らは別々に処理されているため、AI はそれらをうまく関連付けることができません。
産物の論理的統一性の欠如#
工業美術では、単一の画像の詳細が基準を満たすだけでなく、全体の美術リソースの統一性も求められます。例えば、キャラクター A に固定のロゴ素材がある場合、同シリーズのキャラクター B にも同じオブジェクトが必要です。これは「論理的には」同じものであるが、現在のモデルでは、2 人のキャラクターのロゴオブジェクトが一定の程度で異なる可能性があります。差異はそれほど大きくありませんが、論理的には許可されていません。ロゴの形状にわずかな違いがあったり、他の要素が追加されたりすると、人々はそれを 2 つの異なるオブジェクトと感じ、統一オブジェクト本来の機能を発揮できなくなります。
詳細に対する要求がそれほど高くないイラストや、前期にアイデアを出すためのコンセプト図には、AI が非常に適しています。
厳密なゲーム美術工業の美術リソースに関しては、現在の AI は可制御性や二次創作能力においてまだ不足しています。
しかし、現在の進化速度に従えば、近い将来には上記の問題に対する相応の解決策が見つかると信じています。
ジェニー織機#
多くの AIGC 支持者の発言の中で、「ジェニー織機」は現在の AIGC を類比するためによく取り上げられ、AIGC は次のジェニー織機であり、現在の芸術創作の生産関係を変えることができると考えられています。反対者は当時機械を破壊した「反動的な織工」と比喩されます。このように見ると、少し社会達成主義的(すなわち、優勝劣敗、強者生存)に過ぎません。生産された製品の観点から見ると、織機が生産する衣服と芸術創作者が生産する芸術品は 2 つの次元のものであり、前者は生産結果を重視する生活必需品であり、後者は創作過程を重視する精神消費品です。私たちがゴッホの自画像を見るとき、彼の悲惨な人生を思い起こさせます。各塊の絵の具の質感、各線の筆致は彼自身の手によって描かれたものであり、これらの要素がすべて鑑賞体験に融合しています。これは AIGC が数秒で生成した絵画には根本的に欠けているものです。
以前は、人が芸術創作の主体であり、その主体自体も創作の一部でした。創作者と創作過程の「物語」は製品の一環であり、安価な商品に物語を注入することは消費のアップグレード手段の一つです。この属性は AIGC が登場しても変わらず、最低レベルを引き上げ、社会的に必要な労働時間を減少させますが、富裕層の金は依然として尽きることがなく、アップグレードすべき消費は依然としてアップグレードされます。ただし、物語性をそれほど重視しないシーン、例えば安価な装飾画製品などでは、AIGC の利点が非常に明確になります。
未来#
AI は実際には以前から創作分野で多くの応用がありました。例えば、Photoshop の切り抜きやマジック選択ですが、現在多くの人が衝撃を感じるのは、AI が直接最終製品を生み出すことができ、自分の位置を取って代わることができると気づいたからです。AI はもはや単なるツールではなく、仕事の属性において自分と同等の存在になり得るのです。私が知っているいくつかの職業、例えば漫画の線画アシスタントやアニメの中割などは、将来的にほぼ必ず取って代わられると感じています。あるコメント欄のスクリーンショットですが、真実性は保証しません:
しかし、私は個人的に 2D アート、特にアニメは AI に完全に取って代わられるべきではないと考えています。Bilibili の UP 主が新海誠とのインタビューで述べた言葉を引用します。アニメの背景画について:
アニメの中で、たとえ背景の一枚の葉っぱであっても、創作時にちょうど雨が降っていた場合、創作者は葉っぱに一、二滴の露を加えることがあります。
あなたが学んだすべての概念、あなたが経験したすべての感情、そしてあなたが見たり、聞いたり、嗅いだり、味わったり、触れたりしたすべてのことは、あなたの身体状態に関するデータを含んでいます。あなたはこのように精神生活を体験することはありませんが、それは「裏で」起こっていることです。
もし将来的に AI アニメが普及した場合、あなたがアニメを見ているとき、アニメの前半は非常に完璧であっても、突然 AI が生成した論理的でないオブジェクトが一フレームに現れたとしたら、あなたはそれを見てしまい、たとえそれが一フレームであっても、AI が編纂した美しい夢から瞬時に引き離されるでしょう。これは恐怖の谷理論のようなものです。
2D アートに比べて、3D 創作は工業的な特性が強く、流れ作業のレイヤーがより明確であり、AI との相性がむしろ良いです。例えば、最近出たキャラクターをワンクリックで置き換え、自動でライティングを行うツールWonder Studioがあります。また、最も実用的なのは、骨格アニメーションの中間層を生成でき、二次修正をサポートします。高価なモーションキャプチャに比べて、この方法のコストはかなり低くなります。
しかし、これらの中でも、AI が直接生成した写真作品は私にとって最も恐ろしいものです。ある人が数十秒でこの世界のどの地点にも属さない空間を創造できることは、写真の真実性と記録性を破壊します。
2030 年には、AI 写真が氾濫した後、あなたが風景写真を見たとき、最初に心の底からこの構図、この光影、この山、この水に感嘆するのではなく、まずこれが AI 生成のものであるかどうかを疑うことになるでしょう。撮影した人がその場で呼吸していたのか、そこでの太陽の光を感じていたのか、空間内のさまざまな反射光が網膜に作用して神経信号を生成し、その結果カメラを持ち上げ、シャッターを押して、世界のある地点のある瞬間を固定したのかどうかを疑うことになるでしょう。当然、彼は Chagpt を使って、彼がこれらのプロセスを経てこの作品を生み出したと作り上げることもできます。
私たちができること#
プログラマーとして、私は以前、特定の分野については底層から学ばなければ「入門」とは言えないという誤解に陥ることがよくありました。しかし、現在の AI には非常に便利な上層アプリケーションがたくさんあります。基礎が不足している場合、これらの一般的に使用される上層から始めることも悪くありません。その後、自分の能力を活かして付け加えていくことができます。例えば、私が AI の基礎を非常に薄く持っている場合、既存のサービスを基にしてモデルを微調整することができます(例えば、OpenAI のtuning modelを使用して、より細分化された分野で利用する)。私が CRUD しかできない場合、彼らの OpenAPI を呼び出してサービスをラッピングします。私がフロントエンドしかできない場合、より使いやすい UI インターフェースを開発します。私が絵を描くことしかできない場合、現在の能力を使って自分のワークフローを最適化し、効率を向上させる方法を試みます。これらはすべて良い実践です。
結論#
現在、人類は特定の細分化された分野において AI に劣っているように見えます。AI のマルチモーダル能力は以前に比べてかなりの進歩を遂げています。しかし、今でも人間の脳や身体には多くのブラックボックスが存在し、ChatGPT が示す知能も人間の脳の実際の動作とはかなりの違いがあります。人間の脳の効率は機械に比べて依然として高いです(GPT-3.5 をモデルとした ChatGPT モデルのトレーニングコストは 460 万から 500 万ドルに達します)。細分化された分野の AI は、強い人工知能の方向性の AI よりもコストパフォーマンスが高いように見えます。見える範囲では、私たちは完全に取って代わられることを心配する必要はありません。
しかし、人とどのように接するかを学ぶ必要があるように、将来的には AI とどのようにコミュニケーションし、協力するかを学ぶ必要があるでしょう。Stable Diffusion に対してどのようにより正確なプロンプトで画面を説明するか、ChatGPT に対してどのようにより明確な文で、より合理的な誘導を行い、文脈を構築して、より早く望む結果を得るかを学ぶ必要があります。
現在、人類のマルチモーダル能力や一般化能力は依然として非常に強力であり、定量化できない共感や好奇心などが静かに社会を前進させています。私はある程度、インターステラーの「愛と重力だけ」を信じています。理性的には、空を見上げることに何の意味もありませんが、初めて星空を見上げた猿人の好奇心が、私たちを今の場所に導いたのかもしれません。