目次
はじめに
Stable Diffusionって、
手軽に高品質な画像が生成できて便利ですよね。
でも、「もっと自分の好みに寄せたい」
「特定のキャラやスタイルを再現したい」と
思ったことはありませんか?
そこで登場するのが、自作の学習データです!
この記事では、
Stable Diffusion 学習データの作り方にフォーカスして、
「LoRA」「Textual Inversion」「DreamBooth」の
3つの人気手法を使った学習方法を、
初心者の方にもわかりやすく紹介します。
Stable Diffusion 学習データ 作り方1:学習データの基本と活用メリット
学習データとは?
学習データとは、
AIに「この画像にはこういう特徴があるよ」と
教えるための素材です。
Stable Diffusionでは、
画像とキャプション(タグ)を
組み合わせたデータを使って学習させます。
たとえば、
「猫耳の女の子」を再現したいなら...
- 猫耳キャラの画像(10~30枚程度)
cat ears, girl, anime style
といったタグ
これらのセットがあれば、
AIがそのキャラクターやスタイルを学習してくれます。
自作データを使うメリット
- キャラの再現度がぐっとアップ
- 特定の構図・ポーズ・衣装の出力が安定する
- 自分だけのオリジナルスタイルをAIに覚えさせられる
つまり、AIと一緒に創作活動を楽しむ
土台ができるんです!
3つの手法のざっくり比較
手法名 | 特徴 |
---|---|
LoRA | 軽量で再現度が高く、扱いやすい |
Textual Inversion | 特定のキーワード(トークン)に見た目を割り当て可能 |
DreamBooth | 写真やキャラクターの忠実な再現に最適 |
Stable Diffusion 学習データ 作り方2:準備する環境と素材
必要なツール・環境
- Stable Diffusion Web UI(AUTOMATIC1111版)
- Kohya’s GUI(GUIで学習を視覚的に操作可能)
- Python(Anacondaを使うとセットアップが簡単)
- NVIDIA GPU(VRAMは8GB以上推奨)
Web UIやKohya GUIは、
アップデートによって安定性・操作性が
大きく向上しています。
学習用画像の集め方とコツ
- キャラやスタイルごとに10~30枚以上が目安
- 構図・表情・背景にバリエーションを持たせる
- 高解像度・高画質な画像を使用
似たような画像ばかりだと、
AIが偏って覚えるため注意です。
キャプション(タグ)の付け方
- Booruスタイルタグ(例:
1girl, red eyes, short hair
)を推奨 image001.png
ならimage001.txt
を作ってタグを記入- 自動キャプション生成ツール(WD14 Taggerなど)も活用する
Stable Diffusion 学習データ 作り方3:LoRAでの学習ステップ
LoRAとは?
LoRA(Low-Rank Adaptation)は、
モデル全体ではなく一部の重みだけを
学習させる軽量かつ効果的な手法です。
こんなときに最適
- キャラの服装や髪型などの微細な特徴を再現したい
- 少ない画像で高精度に学習させたい
Kohya’s GUIを使った手順
- Kohya GUIを起動して「LoRA Training」を選択
- 画像フォルダとキャプションを設定
- base model(例:Anime Anything)を選ぶ
- 出力先とその他設定を調整
- 学習スタート!
パラメータ設定のポイント
learning rate
:0.0001〜0.0003resolution
:512以上(768もおすすめ)batch size
:VRAMに応じて(4〜8あたり)epoch
:画像枚数×3〜5を目安に
LoRAモデルの使い方
学習後に出力される
.safetensors
ファイルを
Web UIで読み込み、
以下のようにプロンプトに記述
<lora:my_character:0.7>
数字はLoRAの効果の強さを表します。
値は0.6~0.8くらいが自然でおすすめです。
Stable Diffusion 学習データ 作り方4:Textual Inversionでの学習ステップ
Textual Inversionとは?
Textual Inversionは、
特定のキーワードにイメージを
学習させる方法です。
モデル自体を変更しないので、
超軽量で高速!
たとえば
<mycatstyle>
このトークンを使えば、
学習させたキャラやスタイルを呼び出せます。
学習手順
- Web UIの「Training」タブを開く
- Textual Inversionを選び、トークン名を設定
- 画像を選択(10〜15枚でもOK)
learning rate
とエポック数を設定して実行!
学習済みトークンの使い方
プロンプトに学習したトークンを入れるだけ
<mycatstyle>
他のプロンプトと組み合わせて、
多彩な表現が可能です!
Stable Diffusion 学習データ 作り方5:DreamBoothでの学習ステップ
DreamBoothとは?
DreamBoothは、
特定の人物・キャラ・アイテムなどを
忠実に再現する高精度学習法です。
Googleが開発し、その表現力はピカイチ。
ただし、他の手法よりも
GPUリソースや時間が必要です。
Kohya’s GUIでの学習手順
- Kohya GUIで「DreamBooth Training」を選ぶ
- 画像とキャプションを設定
- instance prompt(例:
a photo of sks person
)を入力 - base modelや出力パスを設定
- 学習スタート!
モデルの使い方
生成された .safetensors
または
.ckpt
モデルをWeb UIで読み込み、
instance promptを使えば再現可能!
a photo of sks person, in a forest, smiling
Stable Diffusion 学習データ 作り方6:成功するためのコツと注意点
データの多様性を意識しよう
- 同じ構図ばかりだとAIが偏って覚える
- 表情・背景・角度にバリエーションを入れるのがコツ!
過学習を防ぐには?
- エポック数を控えめにして様子を見る
- 中間生成をこまめにチェック
- 学習画像のタグ精度も重要!
著作権やモラルに配慮しよう
- 他人のイラストや写真を無断使用しない
- 自作、フリー素材、許可を得た画像を使う
- 公序良俗に反するデータの学習はNG!
まとめ
今回は、「Stable Diffusion 学習データの作り方」をテーマに、
LoRA・Textual Inversion・DreamBoothの
3大手法を使った自作学習の
ステップを解説しました。
各手法のまとめ
- LoRA:とりあえず始めたい人におすすめ!軽くて万能
- Textual Inversion:素早く試したい人向け!軽量トークン方式
- DreamBooth:本気の再現に!写真や推しキャラの完全再現も可能
学習データを自作することで、
Stable Diffusionは
自分だけの表現力を持った
パートナーAIに変わります。
楽しみ方
- LoRAでオリジナルキャラを生成 → SNSで公開
- DreamBoothでペット写真を学習 → イラスト化してプレゼント
- Textual Inversionで自分のスタイルを拡張 → 商用展開も!
自分だけの学習データを積み上げて、
AIイラストを楽しんでくださいね!