この記事ではSD2系で使用できるネガティブTIが絵柄にどのような影響を与えるのかの簡単な検証を行いました。
普段SD2系モデルを使用して画像生成を行っていますが現状SD2系はベースモデルが圧倒的に少ないため、自分が望む絵柄を求めると追加学習を行うしかありません。しかし追加学習には環境構築やデータセットの用意が必要であるため、行うことは容易ではありません。
そこで一先ず自分用のマージモデルを安定させようと試行錯誤しているのですが、最近になってネガティブTIが絵柄にも影響を与えるのではという情報を得ました。ネガティブTIに含まれる破綻要素は手や構図などだけかと思っていました。ただまぁ言われてみれば各モデルに合わせてネガティブTIが作られているわけなので、モデルがアニメ系であればネガティブTIにリアル系を取り除くための要素を組み込むだろうなというイメージは出来ます。
では私が求める絵柄にもっとも近づけるアニメ系ネガティブTIを探していきます。モデルはWD 1.5 beta2、VAEはkl-f8-anime2.ckptを使用しています。
以下は使用するネガティブTIです。
badquality | アニメ系 | WD1.5ベースのネガティブTI |
badquality-test13 | アニメ系 | Platさんが最近作られたネガティブTI |
re-badprompt | アニメ系 | Replicant v1.0ベースのネガティブTI |
rev2-badprompt | アニメ系 | Replicabt v2.0ベースのネガティブTI |
nfixer | リアル系 | IlluminatiベースのネガティブTI |
nfixernext | リアル系 | IlluminatiベースのネガティブTI |
nrealfixer | リアル系 | IlluminatiベースのネガティブTI |
clearfixerv1 | リアル系 | Platさんのgraupel-v1と合わせて配布されているネガティブTI |
colorfixerv1 | リアル系 | Platさんのgraupel-v1と合わせて配布されているネガティブTI |
モデルがWD 1.5 beta2なので(anime, tobe mapped:1.2)
を入れています。
(anime, tone mapped:1.2), masterpiece, best quality, best aesthetic, 1girl, purple hair, long hair, purple eyes, black hoodie, hand up, upper body, looking at viewer, buildings, scenery, Negative prompt: badquality Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 4073663302, Size: 512×768, Model hash: 764f93581d, Model: wd-1-5-beta2-fp32, Clip skip: 2, ENSD: 31337, Eta: 0.67
(anime, tone mapped:1.2), masterpiece, best quality, best aesthetic, 1girl, purple hair, long hair, purple eyes, black jacket, white shirt, black pants, hand up, looking at viewer, indoors, office, scenery, Negative prompt: badquality Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 2696966526, Size: 512×768, Model hash: 764f93581d, Model: wd-1-5-beta2-fp32, Clip skip: 2, ENSD: 31337, Eta: 0.67
(anime, tone mapped:1.2), masterpiece, best quality, best aesthetic, 1girl, purple hair, long hair, purple eyes, white t-shirt, blue denim, hand up, looking at viewer, outdoors, beach, palm tree, scenery, Negative prompt: badquality Steps: 20, Sampler: Euler a, CFG scale: 7, Seed: 2906611184, Size: 512×768, Model hash: 764f93581d, Model: wd-1-5-beta2-fp32, Clip skip: 2, ENSD: 31337, Eta: 0.67
どうでしょう。結構イメージ通りなところもあるかもしれません。アニメ系ネガティブTIは等身も低くアニメ系に寄っているように思います。(anime, tone mapped:1.2)
を入れているのでアニメ系にはなっていますが、やはりリアル系は等身が高くなる傾向が見られます。等身が高くなるモデルはリアル系の重みが強いみたいな話を以前どこかで聞きました。まぁ確かにそうだろうなと思います。
nfixer
なんか面白いですね。リアル系ネガティブTIらしくキャラの違和感増しまし、背景キレッキレといった感じです。
badquality
やbadquality-test13
は安定している気がします。WD1.5 beta2らしいアニメ寄りだと思います。光の加減具合に関してはbadquality-test13
の方が良さそうですね。
clearfixerv1
とcolorfixerv1
が比較的安定しているのは興味深いです。リアル系モデルのgraupel-v1と合わせて配布されているネガティブTIですが、こちらもWD1.5 beta2がベースモデルとなっているためアニメ系もいけるという感じでしょうか。ただ、graupel-v1に合わせてリアル系に寄せられているため等身は高くなりがちといった感じですかね。
re-badprompt
は色が滲んでいるところがReplicant v1.0らしいなといった感じです。
結論としてはWD1.5 beta2ベースで作られているネガティブTIが私にはあっているかもしれません。前々からリアル系ネガティブTIではchibi
やloli
が効きにくくなると感じていたため、表現の幅を広げる意味でもbadquality
などがベースとしてはいいのかなと思いました。ネガティブTIは複数使うことでさらに変化を与えられますので、ベースとして使うネガティブTI、味付けとして使うネガティブTIといった感じで使い分けると良いのかもしれません。
選ぶネガティブTIによって絵が変わることは確かなようです。ただ、それが絵柄を変える程のものかというとどうでしょう……。確かに変化してはいますが、絵柄が変わったと表現するのは適切ではないかもしれません。同じような絵柄でアニメに寄るかリアルによるかというような感じもしました。
今回の記事はPlatさんのこちらの連載を見て思いついたものです。ネガティブTIについて色々実験されておりとても面白いです。SD2系を利用されている方であれば一読をお勧めします。
おまけですが記事のアイキャッチ画像は以下のプロンプトで生成しました。モデルはAikimiXR1fp16を使用させていただきましたが、(anime, tobe mapped:1.2)
は入れず、またネガティブもbadquality
のみで生成してみました。短めのプロンプトで良い感じのイラストが生成できたのではないかと思います。ネガティブTIをもっと深堀したり、自分で作ったりしてみるのも面白そうですね。
メタデータ
masterpiece, best quality, best aesthetic, chibi, 1girl, solo, pink pajamas, detailed clothing, , lie down, white sheets, white pillow, sleeping, closed eyes, from side, idleness Negative prompt: badquality Steps: 28, Sampler: DPM++ SDE Karras, CFG scale: 7, Seed: 1050593519, Size: 2304×1536, Model hash: b0ac427639, Model: AikimiXR1fp16, Denoising strength: 0.3, Clip skip: 2, ENSD: 31337, Eta: 0.67
コメント