BLOG ブログ
進化する画像生成AIの現在と、ビジネス活用の可能性
2022年夏、革新的なサービスが次々と登場し、AIによる画像生成は今までにない盛り上がりを見せています。時に奇抜な画像がネットを賑わし、一部では「まだまだAIもこの程度か」と思われている感がありますが、その実力はどれほどのものなのでしょうか。
今回は、NICOのAI活用部門を分社化して設立された「株式会社soda」のプランナー金牧伸弥と、エンジニアの國田圭佑が、AIによる画像生成の実力とビジネス活用の可能性について語ります。
MidjourneyとStable Diffusionが火をつけた画像生成AIブーム
金牧: AIによる画像生成が今、大きな盛り上がりを見せています。たいへん動きが早く、あっという間に話が古くなってしまうのですが、あくまで現時点(対談は2022年10月)で何が起こっているのかをお話しできればと思います。
まずこのブームの発端になったのは、2022年6月に登場した「Midjourney(ミッドジャーニー)」。アメリカのAI開発企業Midjourneyがリリースした画像生成AIで、専用サイト上で任意のテキストを入力すると、そのテキストに沿った画像が自動で生成されるというサービスです。25枚までは無料で生成できるということもあり、たくさんの人が生成した画像をSNSに載せて楽しむなどして話題になりました。
そして2カ月後の8月には、イギリスのAI開発企業Stability AIから「Stable Diffusion(ステーブル ディフュージョン)」がオープンソースとして公開されました。これでさらに動きが加速しましたね。
國田: Stable Diffusionの登場は革新的でしたね。コードが公開されており、改良・再配布が自由にできるオープンソースであるということが大きかった。世界中の人たちが「あれに適用させよう」「これに適用させよう」と試した結果、発表からわずか2~3週間でさまざまな目的に応じて特化(ファインチューニング)されたモデルが続々と出てきました。例えば日本風のアニメのみ集中的に学習させた、アニメ美少女が得意なモデルなどです。
金牧: どちらも画像生成AIにとっては大きなニュースですが、Midjourneyはひとつのサービスとして登場したのに対し、Stable Diffusionはオープンソースとして公開されたことが衝撃的でした。
國田: そうですね。どちらもクオリティの高い画像を生成しますが、学習データによってテイストに違いがありますね。今の画像生成のブームを加速させたのは、やはりStable Diffusionがコードを公開したことが大きかったですね。
▼Stable Diffusionの仕組みについて、詳しくはsodaブログへ
話題のStable Diffusionのコア技術について解説
金牧: AIが普及するのはまず作業の自動化や数値シミュレーションなどの効率化の部分だろうと、國田君ともよく話していたのですが、まさかの創作活動が先に進みました。
國田: 創作や表現の分野はまだまだ先の話になるだろうと思っていたので、一気に抜かされたのは驚きでしたね。
Stable Diffusionによる画像生成の様子
金牧: では実際に、Stable Diffusionで画像を生成する様子を見てみましょう。
呪文(プロンプト)は「photo of a muscular golila holdings a barbel at the gym」
國田: この動画が実際のスピードです。使用しているGPUのスペック次第ではありますが、例えば、NVIDIAのTesla V100ですと10~20秒程度で生成されます。
さらに、Stable Diffusionはテキストから画像を生成するだけでなく、画像から画像を生成する機能も実装されています。ベースになる画像をStable Diffusionのモデルに読み込ませ、さらにテキスト加えることで、その画像をうまく編集してくれるという機能です。
私が描いた元画像をStable Diffusionに読み込ませ、テキストで編集してみたものがこちらです。
絵が描けない私でも、Stable Diffusionでここまでの素材が作れてしまいます。
金牧: これを世界中の人たちがそれぞれに試しているわけですね。ここで入力するテキスト(プロンプト)は「呪文」なんて呼ばれていて、インターネット上で辞書化しています。「この言葉を入れたらライティングがこうなる」や「こういう言葉を入れたらキャラクターの目がこうなる」といった知識が共有されて、どんどん狙い通りの画像を生成するスキルが積み上げられています。
現在、AIによる画像生成は絵をどうやって描くかよりも、言葉をどうやって扱うかがスキルになっている感がありますね。
國田: いろいろな言葉を入れて生成を繰り返すことを、引いてみなければわからないソーシャルゲームの抽選方式になぞらえて「Stable Diffusionガチャ」なんて呼んで楽しんでる人たちもいますね。100回生成してみて一番出来がよかった画像はこれです、といってSNSにアップしたりして。
金牧: 誰でも使えるとはいえ、テキストだけで狙い通りの画像を出力させることはやはり難しく、けっこう出たとこ勝負ですからね。だからこそ精度を上げるために「呪文」の共有がされているわけですが、特に登場したばかりのころは想定外の画像がどんどん生成されてSNSで話題になるので、ネット上ではおもしろコンテンツ扱いされていた部分もありました。
國田: 生成AI自体が明確なビジネス目的を見据えて登場したわけではないという背景もあります。Stable Diffusionがオープンソースで公開された経緯からして、好きに使って楽しんでくださいねという性格がよくわかると思います。
画像生成AIのビジネス活用の可能性
金牧: ただ、画像を生成する技術自体はすでに実用レベルにあります。「元画像のこの部分を変更する」といった適用範囲を絞ったものなら十分クオリティのコントロールが可能で、すでにAIによる生成画像はあちこちで使われています。
國田: Midjourneyの登場以前から、GANとCLIPというモデルを使って、テキストによる画像生成やコントロールの研究は行われていましたからね。そちらはモデルの仕組みやソースコードに対する理解が必要なので、手軽に試すにはハードルが高いですが......。
▼GANとCLIP による画像生成の技術について、詳しくはsodaブログへ
CLIPとGANを組み合わせた画像加工
テキストだけで画像生成!?
金牧: テキストでコントロールする生成モデルをビジネス化した事例は、まだ今のところ(2022年10月現在)は聞きませんが、とにかく進化が早いですし、こちらも確実にビジネス化されていくでしょうね。
國田: まず一番分かりやすい例でいくと、目的に応じてファインチューニングされたモデルが出てくると思います。今はアニメやゲーム、風景などのエンタメやアートの分野が多いですが、企業が素材サイト代わりに使えるようなものが出てくるのではないでしょうか。
例えば広告や企画書に載せる素材がほしいとき、これまでのように素材サイトを検索してイメージに近いものを探すのではなく、画像を説明するテキストを入力すればぴったりのものが生成されるといった使い方ですね。
金牧: MidjourneyやStable Diffusionは画像のタッチをコントロールする場合、テキストで細かく指定する必要がありますが、特定のタッチに特化したモデルをあらかじめ作っておいて、画像の内容だけをテキストで指定するというパターンも可能ですね。これならコントロールがずっと簡単になります。
著作権に関する課題と法整備について
金牧: ただ、ここにはひとつ課題があります。それが著作権の問題。MidjourneyやStable Diffusionでは、特定のクリエイターなどの名前を入れるとそのテイストで画像が生成できるのですが、それが著作権の侵害にならないのかということです。
もちろんクリエイターの作品そのままのものを作って発表してしまえば侵害にあたりますが、さらに別のテキストで画像を生成しなおしてしまえば、もう元の作品とは別のものになります。「ちょっと似てるな」くらいのものが生成されたとき、それをどう考えるのか。
國田: 先日は特定のクリエイターの作品の画風と同じイラストを生成するmimic(ミミック)というサービスがリリース直後から大炎上しましたね。
これはもともとクリエイター自身が使う、クリエイターの活動サポートを目的としたサービスなのですが、第三者による悪用の可能性があるのではないかと指摘が相次ぎました。つまり、第三者が勝手にクリエイターの作品をAIに学習させ、生成された画像を自分の作品として発表してしまうことを防げないのではないか、という懸念です。
金牧: 日本の法律上はモデルの学習をさせるために著作物を使うことは認められていますし、AIが自動生成した画像に著作権はありません。mimicのサービスはしっかりとしたガイドラインもあり、法的な問題は無いと思います。ただ悪用の恐れがある以上、倫理的な問題は避けられません。クリエイターからすれば、勝手に自分の画風を真似されるのはたまらない、という。
そういった問題は、具体的なサービスが出てきたときに顕在化します。AIによる自動運転も、技術面より法整備のハードルが一番高いと言われていますし、画像生成についても法整備の課題は今後必ず出てくるでしょうね。
國田: 日本の法律自体は、AI学習にとっては先進的な法律だと言われています。権利問題で行動が取れないことがないように、もともとかなり自由度の高い法律になっているんですね。そこが変わることはないかと思うので、その上でもともとの学習に使われた画像をどう保護するのかという考えになってくるのだろうと思っていますが。
金牧: 学習元となるデータの提供者にもメリットを還元でき、倫理的な問題をクリアできるサービス設計ができればいいわけで、それが可能ならもうすぐにでもサービス化されていくと思います。
ただ、たぶん新たなモデルの方が法整備よりも早く出てくるでしょうから、法的・倫理的に問題ないかということは、利用する側も情報収集をしながら使っていかないといけないでしょうね。
國田: 現段階で法的・倫理的な問題をクリアできるものといえば、インナーで使うものや、元データが完全に著作権フリーの素材を使ったものなどになりますね。例えば制作会社だったら、社内のイラストが得意な人の描いたものでチューニングしておいて、必要な時にデザイナーがバリエーションを指示して画像を生成するなどです。そういうものから普及していくかもしれませんね。
NICOでの画像生成AI活用と、求められるAIリテラシー
金牧: インナーで使う生成モデルはNICO社内でも作れないかと考えています。最初はNICOの制作スタッフのサポートツールとして利用し、いずれはクライアントへのサービスとして提供できるようにしていきたいですね。
NICOの取り組みという話でいくと、画像が裏側で持っている数値を活用していくことも考えています。こちらはまだまだ構想段階ですが。
國田: ここでいう数値というのは、画像の特徴を数値化したものですね。もともとAIによる画像生成というのは、画像やテキストの特徴を数値に変換することから始まっています。そしてそのテキストとこの画像は近いのか、遠いのかといったことを計算し、テキストの数値に画像の数値を近づけていくことで狙い通りの画像を生成するというのが根本的な技術です。この数値を、生成以外のところでも使えないかということですね。
金牧: 例えば、ECサイトの画像検索は商品の画像に商品情報が紐づいていないとできませんし、商品レコメンドには利用者の行動データの蓄積が必要になります。しかし、もともと商品画像が持っている数値の類似度を利用すれば、商品情報や行動データがなくても検索やレコメンドも可能になるかもしれません。
國田: ちなみにMidjourneyやStable Diffusionはテキストで出力をコントロールしていますが、実はそれも裏側ではすべて数値化されています。表面上は数値のところは見えず、テキストだけでやっているように見えているんですが。
金牧: テキストだけではなかなか狙い通りの画像を生成するのが難しいというのはそこですね。この言葉を入れてみたらこう変わったというのは試してみるまでわからないのですが、画像やテキストが裏側で持っている数値のことを理解していれば、実はもっとコントロール精度が上がります。
國田: そうなんです。やはりシステムへの理解があるかどうかで結果は違ってきます。AIがどういう考え方で生成しているのかがわかっていれば、この場合はこういうテキストを入れたほうがいい、と判断できますから。
AIが出してきた結果を人間がどう解釈するのかは、とても重要なことです。画像生成AIでハイクオリティな画像が作れるかどうかにしても、どういう画像を作りたいかというイメージがしっかり持てるかだとか、絵心といったものも重要ではあるのですが、それに加えて、AIに関する理解、AIリテラシーが必要になってきますね。
金牧: 逆に言うと、AIを使えば誰もが簡単にハイクオリティの画像を作れるようになるわけではないということでもあります。
AIも人間の作業をサポートするための道具のひとつであって、使いこなせるかどうかは本人のセンスや知識、AIリテラシー次第。そこは既存のツールと大きな違いはありません。Adobe Illustratorが使えれば全員がデザインできるわけではないというのと同じです。
國田: それこそ今だと仕事にはWordやExcelが欠かせませんが、その操作にはITリテラシーが求められるのとも同じですね。これからどんどんAIは浸透していくに違いないわけで、生成モデルのようなものが職場に入ってきたとき、AIリテラシーがないとどう使っていいかわからないということになってしまいます。
金牧: テキストによる画像生成はここ数カ月の動きがあまりに速くて、この先どうなっていくのかなかなか見通せないのですが、これから先、AIが急速に皆の仕事や生活の場に普及していくことは間違いありません。そのときそれをちゃんと使いこなすためには、AIへの理解を深め、備えていくことが重要ですね。
また、もちろん現状でもすでにAIを用いた画像生成はビジネスに利用可能です。AIに興味はあるものの具体的なプランがあるわけではない、というような段階でも、お気軽にお問い合わせいただければと思います。
AIによる画像生成についてご相談・お問い合わせはsodaサイトへどうぞ
お問い合わせ金牧 伸弥
株式会社soda(データ関連事業子会社) プランナー
調査、POSデータや顧客データ分析を基にしたマーケティングコンサルティング、 プロモーションプランの立案に従事。また大学や企業との共同研究を積極的に行い、マーケティングサイエンス学会等で発表。 株式会社soda設立に伴い、2019年7月より立ち上げメンバーとして参加。 19年8月に データマイニング・ AIの国際 カンファレンスである 「 KDD2019 」にて、「リユースジュエリーの画像から売価を予測するモデル」の研究成果を発表。
國田圭佑
株式会社soda(データ関連事業子会社) AIエンジニア
Deep Learningや機械学習、画像分析、GANをはじめとした生成AIなどの人工知能分野における研究開発に従事。Pythonを用いたAIプロダクトの開発を中心に、Webアプリや業務効率化ツールの開発(C#, JavaScript, Postgresql)などを担当。JDLA Deep Learning for General 2019#1(G検定), JDLA Deep Learning for Engineer 2021#1(E資格)合格者 品質管理検定1級取得。