Stable Diffusion

Stable Diffusion 学習データの作り方【完全解説】

はじめに

Stable Diffusionって、

手軽に高品質な画像が生成できて便利ですよね。

でも、「もっと自分の好みに寄せたい」

「特定のキャラやスタイルを再現したい」と

思ったことはありませんか?

そこで登場するのが、自作の学習データです!

この記事では、

Stable Diffusion 学習データの作り方にフォーカスして、

「LoRA」「Textual Inversion」「DreamBooth」の

3つの人気手法を使った学習方法を、

初心者の方にもわかりやすく紹介します。

Stable Diffusion 学習データ 作り方1:学習データの基本と活用メリット

学習データとは?

学習データとは、

AIに「この画像にはこういう特徴があるよ」と

教えるための素材です。

Stable Diffusionでは、

画像とキャプション(タグ)を

組み合わせたデータを使って学習させます。

たとえば、

「猫耳の女の子」を再現したいなら...

  • 猫耳キャラの画像(10~30枚程度)
  • cat ears, girl, anime style といったタグ

これらのセットがあれば、

AIがそのキャラクターやスタイルを学習してくれます。

自作データを使うメリット

  • キャラの再現度がぐっとアップ
  • 特定の構図・ポーズ・衣装の出力が安定する
  • 自分だけのオリジナルスタイルをAIに覚えさせられる

つまり、AIと一緒に創作活動を楽しむ

土台ができるんです!

3つの手法のざっくり比較

手法名特徴
LoRA軽量で再現度が高く、扱いやすい
Textual Inversion特定のキーワード(トークン)に見た目を割り当て可能
DreamBooth写真やキャラクターの忠実な再現に最適

Stable Diffusion 学習データ 作り方2:準備する環境と素材

必要なツール・環境

  • Stable Diffusion Web UI(AUTOMATIC1111版)
  • Kohya’s GUI(GUIで学習を視覚的に操作可能)
  • Python(Anacondaを使うとセットアップが簡単)
  • NVIDIA GPU(VRAMは8GB以上推奨)

Web UIやKohya GUIは、

アップデートによって安定性・操作性が

大きく向上しています。

学習用画像の集め方とコツ

  • キャラやスタイルごとに10~30枚以上が目安
  • 構図・表情・背景にバリエーションを持たせる
  • 高解像度・高画質な画像を使用

似たような画像ばかりだと、

AIが偏って覚えるため注意です。

キャプション(タグ)の付け方

  • Booruスタイルタグ(例:1girl, red eyes, short hair)を推奨
  • image001.png なら image001.txt を作ってタグを記入
  • 自動キャプション生成ツール(WD14 Taggerなど)も活用する

Stable Diffusion 学習データ 作り方3:LoRAでの学習ステップ

LoRAとは?

LoRA(Low-Rank Adaptation)は、

モデル全体ではなく一部の重みだけを

学習させる軽量かつ効果的な手法です。

こんなときに最適

  • キャラの服装や髪型などの微細な特徴を再現したい
  • 少ない画像で高精度に学習させたい

Kohya’s GUIを使った手順

  1. Kohya GUIを起動して「LoRA Training」を選択
  2. 画像フォルダとキャプションを設定
  3. base model(例:Anime Anything)を選ぶ
  4. 出力先とその他設定を調整
  5. 学習スタート!

パラメータ設定のポイント

  • learning rate:0.0001〜0.0003
  • resolution:512以上(768もおすすめ)
  • batch size:VRAMに応じて(4〜8あたり)
  • epoch:画像枚数×3〜5を目安に

LoRAモデルの使い方

学習後に出力される

.safetensors ファイルを

Web UIで読み込み、

以下のようにプロンプトに記述

<lora:my_character:0.7>

数字はLoRAの効果の強さを表します。

値は0.6~0.8くらいが自然でおすすめです。

Stable Diffusion 学習データ 作り方4:Textual Inversionでの学習ステップ

Textual Inversionとは?

Textual Inversionは、

特定のキーワードにイメージを

学習させる方法です。

モデル自体を変更しないので、

超軽量で高速!

たとえば

<mycatstyle>

このトークンを使えば、

学習させたキャラやスタイルを呼び出せます。

学習手順

  1. Web UIの「Training」タブを開く
  2. Textual Inversionを選び、トークン名を設定
  3. 画像を選択(10〜15枚でもOK)
  4. learning rateとエポック数を設定して実行!

学習済みトークンの使い方

プロンプトに学習したトークンを入れるだけ

<mycatstyle>

他のプロンプトと組み合わせて、

多彩な表現が可能です!

Stable Diffusion 学習データ 作り方5:DreamBoothでの学習ステップ

DreamBoothとは?

DreamBoothは、

特定の人物・キャラ・アイテムなどを

忠実に再現する高精度学習法です。

Googleが開発し、その表現力はピカイチ。

ただし、他の手法よりも

GPUリソースや時間が必要です。

Kohya’s GUIでの学習手順

  1. Kohya GUIで「DreamBooth Training」を選ぶ
  2. 画像とキャプションを設定
  3. instance prompt(例:a photo of sks person)を入力
  4. base modelや出力パスを設定
  5. 学習スタート!

モデルの使い方

生成された .safetensors または

.ckpt モデルをWeb UIで読み込み、

instance promptを使えば再現可能!

a photo of sks person, in a forest, smiling

Stable Diffusion 学習データ 作り方6:成功するためのコツと注意点

データの多様性を意識しよう

  • 同じ構図ばかりだとAIが偏って覚える
  • 表情・背景・角度にバリエーションを入れるのがコツ!

過学習を防ぐには?

  • エポック数を控えめにして様子を見る
  • 中間生成をこまめにチェック
  • 学習画像のタグ精度も重要!

著作権やモラルに配慮しよう

  • 他人のイラストや写真を無断使用しない
  • 自作、フリー素材、許可を得た画像を使う
  • 公序良俗に反するデータの学習はNG!

まとめ

今回は、「Stable Diffusion 学習データの作り方」をテーマに、

LoRA・Textual Inversion・DreamBooth

3大手法を使った自作学習の

ステップを解説しました。

各手法のまとめ

  • LoRA:とりあえず始めたい人におすすめ!軽くて万能
  • Textual Inversion:素早く試したい人向け!軽量トークン方式
  • DreamBooth:本気の再現に!写真や推しキャラの完全再現も可能

学習データを自作することで、

Stable Diffusionは

自分だけの表現力を持った

パートナーAIに変わります。

楽しみ方

  • LoRAでオリジナルキャラを生成 → SNSで公開
  • DreamBoothでペット写真を学習 → イラスト化してプレゼント
  • Textual Inversionで自分のスタイルを拡張 → 商用展開も!

自分だけの学習データを積み上げて、

AIイラストを楽しんでくださいね!

  • この記事を書いた人

すー | Suu

千葉県出身 旅とグルメが大好き フリーランスWebデザイナー

-Stable Diffusion