りすなーの雑文

りすなが書いた文が置かれています。twitter:@mioni_listener

その時僕らはまだボカロ曲を聴くのか?~AI絵師の襲来から考えること

 

0.はじめに

 

この記事はボカロリスナーアドベントカレンダー2022の12月20日分です。

前日は茜涼夏さん。次の日はB,Fさんです。

茜涼夏さんはボカロレビューとレビューへの向き合い方の話でした。ボカコレビューに僕も寄稿させて頂いているので、なるほど参考になります。

 

adventar.org

 

はじめましての方ははじめまして。ボカロリスナーのりすなと申します。

普段はボカロリスナーとしてボカコレ全曲チェックとかしています。

 

 

今回は普段あんまりしない僕の専攻のことも交えながら「AIとボカロ」の話をします。

(細かい技術の話はしないから安心してね!)

 

1.AI絵師ってそもそも何?

さて、本題に入る前にこの話をしなければなりません。

今年の6月に彗星の如く現れたお絵描きAI、「Midjourney」は大きな衝撃をオタク界隈にもたらしました。

midjourneyに描かせた初音ミク

 

その後、「mimic」という絵柄を学習して絵を生成するサービスが議論を呼んだり、アニメ風に描いてくれる「novelAI」の誕生などを経ていよいよpixivやツイッターにはAI産の絵があふれるようになっていった...という経緯はまだ記憶に新しいですね。

怖くないラジオのフライヤー。novelAIに女の子を描いてもらった

 

実は画像を生成するAIというもの自体はかなり昔からありました。去年くらいまで一般的だったのはGAN(Generative Adversarial Networks: 敵対的生成ネットワーク)の派生で、更にそれより前はVAE(Variational Auto-Encoder: 変分オートエンコーダ)という手法が一般的でした。(こう書くとGANやVAEが過去の技術かのようですが、今でも新しく論文が出ている分野です。)

 

超ウルトラスーパーめちゃくちゃ怒られが発生するレベルで端折って説明すると、VAEと言うのは

 

1.猫の画像から特徴だけ抽出したやつを作る

2.「特徴だけ抽出したやつ」から猫の画像に戻せるシステムを作る

3.さっき作った「猫の画像に戻せるシステム」に「「特徴だけ抽出したやつ」っぽいもの」を通せば新しい猫の画像ができる

 

というもので*1、GANというのは

 

1.「ノイズから猫の画像作るくん」を作る

2. 猫の画像をいっぱい見せといた「猫の画像に詳しいくん」を作る

3.「猫の画像に詳しいくん」に「猫の画像作るくん」の作った猫の画像をダメだしさせる

4.「猫の画像作るくん」の画力が上がる

 

というものです。

詳しい説明は

qiita.com

これとか

crystal-method.com

これを参考にするか論文に当たってください。

 

それに対して、今回出てきたMidjourneyなどが使っているのは"diffusion model(拡散モデル/拡散過程モデル)"というものです*2。Midjourney自体は最近出てきましたが、diffusion model自体は新しいものでは無く、どちらかというとVAEの近縁種として2015年には誕生していたものです。

これは簡単にいえば、

 

1. 猫の画像を用意する

2.猫の画像が少しノイズに近づくように手を加える

3.2を繰り返して完全にノイズにする

4.2の繰り返しをもとに「ノイズから猫の画像に戻すくん」を作る

5.適当なノイズを「ノイズから猫の画像に戻すくん」にわたすと猫の画像が生成される!

 

という仕組み。詳しいことはこの記事がいい感じです。

data-analytics.fun

 

VAEはどうしようもないレベルで画像がぼやけてしまい*3、GANは「モデル崩壊」と呼ばれる「お前似たようなやつしかつくらねーじゃん」という問題*4が解決出来ずにいましたが、これをなんとかしてくれたのがdiffusion model です*5

 

2.お絵かきAIがもたらした騒動

さてこのdiffusion modelを使ったお絵かきAIなのですが、実は去年の夏にはすでにGoogleが作って論文を出していました。

 

ai.googleblog.com

parti.research.google

しかしGoogleは何を恐れてか、このAIを使ったプロダクトを一般公開しませんでした。

 

まぁ何を恐れたって

togetter.com

こういうことだと思うんですけれども

ボカロPでも煮ル果実さんなどが懸念を示していましたね。

 

とにかく、技術が生まれたことよりも技術が一般に広まったときにこういった騒動が発生しました。

「AIによって絵師のしごとが奪われる」

とか

「勝手に自分の絵をAIの肥やしにされる」

という不快感や拒絶感は当時こそすごいものがありましたが、でもだいぶ今では落ち着きましたね...

結局のところAIにはまだ出来ないことが多かったり、「表現したい!」という欲求自体はAIに代替できないことから「創作者」にはほぼ影響は無いはずですし、絵って人間最大の情報源に訴えるのでなんとなーく「これAI産」だな~って分かるので無意識フィルタリングで弾いてる人も多いのでしょう。

 

そう、絵だからまだマシだったのです.......

 

3.作曲AIの現状

 

作曲AIの歴史も古いです。

悪いオタクならすぐに一つの例を挙げられるでしょう。

www.orpheus-music.org

Orpheusですね。

これは歌詞を入力すると日本語の構文解析を行い、ふさわしい音韻を設定、コードに乗せて作曲する確率モデルです。

www.orpheus-music.org

ただまだ本当に作曲の段階:メロディと伴奏くらいしか作ってくれず、このままでは実用には耐えません。

 

しかし2020年にはOpenAI(cahtGPTを作ったところですね)が歌声付きの音楽を生成できるJukeboxをリリース。

openai.com

これは120万曲もの音楽を歌詞や年代とともに学習させたものです。

最近ではかなりクオリティの高い音楽を生成してくれるサービスも登場しました。

fimmigrm.com

これは玉井健二さんが関わったことでも話題になりましたね。

www.j-platpat.inpit.go.jp

特許を見る限り、VAEモデルを発展させたものでしょうか?どちらかというと作曲したメロディとコードを良さ目にフィルターして出すところが肝要なシステムに見えます。

 

まだは発展途上ですが、お絵描きAIを進化させたdiffusionモデルでの音楽生成も試みられています。

webbigdata.jp

Dance Diffusionはstable diffusionの開発元が制作したものです。まだなかなか難しいみたいですね...

別方向からのアプローチとして、曲を短時間フーリエ変換スペクトラムの画像に変換。これをstable diffusion のモデルに特化させてるタイプのやつ。

www.riffusion.com

"diffusionモデルで絵がかけるなら、音楽を絵にすれば生成してくれるはず!"という発想は圧倒的すぎる。

 

4.作曲AIがボカロにやってくる時

 

基本的にはお絵描きAIと同じく、ボカロPの作曲意欲を代替するものでは無く、一般のボカロリスナーもフィルタリングして聴かないだけでしょう。

 

 

しかし、確実に困る人達がいます。

 

 

全曲チェッカーです。

 

お絵かきAIでもっとも実害を被ったのはpixivなどでファンアートを漁っていた人たちでした。

簡単に量産できるAIアートによってスパムのごとく巡回していたタグが埋められてしまったのです。(絵師も自分の作品が見られにくくなったという点で実害を被っているでしょう)

 

無論、創作活動は自由ですし規約違反をしているわけでもありません。現在pixivではAI生成作品をフィルタリングできる様になったので一般ユーザーは困らないでしょう。

 

が、しかし

 

全曲チェッカーはそうも行きません。なにせ全曲聴くことをアイデンティティーとしていますし、紛れもなくAI作品も創作物です。

何よりクオリティのそこそこ担保されたAI作品が大量にVOCALOIDタグを埋め尽くした時、僕らディグをする人はその膨大な山をちゃんと掘り返せるのでしょうか?

そして、自分好みの曲が無限に、簡単に生成されるようになった時、僕らは曲を探し続けるのでしょうか?

 

そもそも、全曲チェッカーの中にはボカロ界隈を盛り上げるために、明日もまたボカロ曲が投稿される環境を作るために聴いているという人もいます。

もし半永久的に、ボカロ曲を生成するbotが現れ、毎日数千曲の良曲を投稿し、そこに人間の意志も思想もなく明日のボーカロイドが紡がれるようになった時、僕らはボカロ曲を聴き続けるのでしょうか?

 

そういう未来は、意外とすぐそこにあるかもしれません。

 

5.おわりに

AIと音楽の未来、みたいな話をしました。

現実には多分、音楽そのものを楽しむ音楽は人間が作ったものしか聴かないでしょう。多分、動画広告のBGMとか、音楽そのものが目的でないものをAIは置き換えたり、AIを作曲のツールとして、例えば便利な著作権フリーサンプリングとして使われることなどはあるんじゃないでしょうか?

 

来そうな未来に、少しでも備えられたらいいなぁと思います。

 

アドベントカレンダー、明日はB,Fさんが文脈DJの話をしてくれるらしいよ!

 

エンディング:「過学習」(機械学習用語なので)

www.youtube.com

*1:「それはAEの説明じゃん変分はどこに消えたよ」と言われそうです。

*2:stable diffusionのdiffusionはコレですね

*3:「猫の画像の特徴」の周りに「猫の画像の特徴とちょっと違うやつ」がたくさんあるという学習システムのせいでそれらが重なってぼやけてしまう...というのが超ウルトラざっくりとした理由

*4:これは判定くんが厳しく教育しすぎた結果といえばわかりやすいですかね

*5:とはいうもののやはりGANとトレードオフになってるところもあるのでそこらへんはご愛嬌