音声メディアビジネスの行く末

2020年2月13日(金)、ボイスメディア「Voicy(ボイシー)」主催のイベント「#ボイマ !! Vol.1」に参加してきました。

10分間のライトニングトーク(LT)をさせていただいたので、内容をKOMUGIでもアーカイブしたいと思います。テーマはこちら。

コムギらしく、ということで「そもそもボイスって何?」「メディアとしてどんな特性があるの?」ということを求められているのだと勝手に解釈しまして、「耳」と「声」について、ライトニングトークをします。

人間には、耳、つまり聴覚をふくめて「五感」があることはよく知られていることです。目は視覚、耳は聴覚、鼻は嗅覚、口は味覚、手は触覚。ほかに傾きを自覚する平衡感覚、自分のカラダがどこにあるのかを知る体性感覚、熱いか冷たいかをしる温度感覚などがありますが、基本的には五感です。

では五感のなかで、「耳」の特徴はなんでしょうか。

たとえば遠くで起こった自動車事故で、大きな音が聞こえます。人は耳の聴覚で危険を察知して「はっ」と振り向き、何が起こったかを目で確認しますね。目は「目の前」という言葉があるように、後ろで起こっていることはわかりません。視野角はだいたい210度ぐらい。でも耳は360度で起こったことを把握するための感覚器なんですね。あと、大きな音がしたときに、みなさんもドキっとすると思いますが、瞬間的に脳のエモーショナルな部分に訴えかけます。「危ない!逃げろ!」というのを瞬時に判断するには、耳が必要です。

脳のエモーショナルな部分に訴えかける。この例としては、最近に流行ったASMR(英: Autonomous Sensory Meridian Response)の動画がありますね。ASMRは人が聴覚や視覚への刺激によって感じる、心地良い、脳がゾワゾワするといった反応・感覚のことで一般的な日本語訳ありませんが、直訳すると「自律感覚絶頂反応」となります。

「バイノーラル録音」をご存じでしょうか。ステレオ録音方式の一つで、人間の頭部の音響効果を再現するダミー・ヘッドなどを利用して、耳の鼓膜に届く状態で音を記録する方式です。VRのヘッドマウントディスプレイにおいて、この音の方向は「リアリティの現実空間」を再現するのに、とても大事な役割を果たしています。男性の方は、ぜひDMMアプリでセクシーVRビデオを試してみてください(笑)。耳元でささやかれているとき、聴覚がいかにエモいものなのかが実感できるはずです。

よくカフェでノマドワークをしていると、まわりにいろいろな話をしている人たちがいて、BGMもあり、ガチャガチャとうるさいはずなのに、パソコン作業に集中しているとまわりの雑音が聞こえないゾーンのような状態になりますよね。これは「カクテルパーティー効果」と呼ばれています。カクテルパーティーのように、たくさんの人がそれぞれに雑談しているなかでも、自分が興味のある人の会話、自分の名前などは、自然と聞き取ることができます。逆からいえば、「聞こう」という意思、インテンションを伴わなければ、音や声はしているのに、人間は聞こえてないということです。不思議ですね。

さて、耳で聴く音楽やポッドキャスト。みなさんははどんなときに聞いているのでしょうか? 家のなかで寝転びながら? 料理をしながら? 寝る前になんとなく? それとも通勤や通学の電車のなか? クルマを運転するとき? さてさて、どんなときに聞いているのでしょうか?


参考までに、ちなみにラジオは家で聴く人が半分。残りはクルマの中と、外出した外のどこかで、半分づつです。そういえば、外にいるときは、基本的にいろんな人がいるパブリックな公共空間です。プライベートな音楽やポッドキャストはイヤホンで聴かないといけませんね。ただし聴覚のメディアの特徴は「◯◯しながら」ができるということにあります。料理をしながら、歩きながら、運転しながら、単純作業をしながら……これはYouTubeやNetflixなどの動画アプリやスマホゲームなどとは大きく違うメディア特性ですね。

ここで一つの問いをつくりたいと思います。「耳の可処分時間」つまり聴覚の占有率については、どういった仮説が成り立つでしょうか? 今、みなさんの「耳の可処分時間」を奪っているものは何でしょうか? 家ならばテレビ、YouTube、TikTok、動画アプリと競っているかもしれない。外にいるときならば、スマホゲーム、あるいは音楽を聴いている、もしくは友だちとの会話……。あえて「耳の可処分時間」を奪うメディア、つまり聴覚のメディアだけに限っていえば、最大の競合はSpotifyやLINEミュージックなどの音楽ストリーミングサービスかもしれません。Spotifyはポッドキャストもやっていますよね。

耳について、3つにまとめましょう。1つ目に、耳の聴覚はダイレクトにエモーションに届く、ということ。危険を察知する、ASMR、バイノーラルが例でした。2つ目は、耳は「◯◯◯しながら」ができます。カクテルパーティー効果でいえることは、たとえばラジオや音楽、ポッドキャストを何かをしながらなんとなく流しておいても、テレビやYouTubeほど時間を奪われる感覚はない、ということです。3つ目は、耳の可処分時間という枠組みでは、ユーザーの聴覚のみを奪う音楽ストリーミングアプリは競合といえるかもしれません。こうした耳メディア、聴覚メディアの特性をまず理解しておくとよいでしょう。

次に「声」について。

2012年に「イグ・ノーベル賞」の「音響賞」を受賞した、おしゃべり妨害装置「スピーチ・ジャマー」をご存じでしょうか。ネーミングの由来は、妨害を意味する英語の「ジャム」と、日本語の「邪魔」をかけたダジャレです。話している人の声をマイクで拾い、約0.2秒後に指向性スピーカーで声を本人に送り返す仕組みになっています。この「スピーチ・ジャマー」を向けられると、なぜか話しづらくなってしまうのです。

人は話すときに、聴覚で自分の声を確かめながら発声しています。これを学術用語では「聴覚フィードバック」といいます。なぜか人は0.2秒、届く声を遅らせると、自分の声ではないと思ってしまうのです。実は、この「0.2秒」がポイントです。

わきの下を自分の手でくすぐったことがある人はいるでしょうか? 当たり前のことですが、人からくすぐられると「くすぐったい!」と思うのに、自分でくすぐっても、ちっともくすぐったくありません。では、自分の手で動かすロボットアームに刷毛を持たせて、くすぐらせたらどうなるのか。こんな実験があります。結果は? 実はくすぐったくありません。ところが、です。これがロボットアームが動くのを0.2秒だけ時間方向をずらしてあげると、人は「くすぐったい!」と思うのです。

つまり、「声に出す」といったとき、「声」というのはカラダの一部なんです。たぶんTwitterで書き言葉で発信するよりも、ポッドキャストやVoicyの話し言葉で、声で発信するほうがよほど勇気がいるはず。なぜなら、声はみなさんのカラダの一部だからです。

おそらく映像はいろいろと演出でごまかせるんですね。聴覚だけにフォーカスしているわけではないので、視覚でごまかせる。テロップ入れたり、映す角度を変えてみたり。いろいろと演出できます。でも、「声」というのは、ある意味でごまかしが聞かないところがあります。発信する、その人自身の持っているものが全部が出てしまう。もし風邪を引いていたら、花粉症になっていたら、鼻声になってしまうし、それを隠すこともできません。体調が悪いときの声も、「いつもより元気がないな」と自然とリスナーに伝わってしまいます。つまり「声の身体性」がポイントです。

言ってみれば、発信するパーソナリティたちが「まるはだか」で、リスナーのみなさんと1対1で向き合うようなものです。この「声」の身体性というのが、実はラジオやポッドキャスト、あるいはVoicyというメディアを考えるにあたって、とても重要なことです。「耳」の「聴覚メディア」には、ダイレクトにエモーションに届く、という特徴があります。なぜ芸能人が安いギャラでラジオに出演をし続けるかといえば、その一つにリスナーとの「はだかの付き合い」のような、密なエンゲージメントがあるからだとコムギは考えています。この「深いつながり」は、おカネで買えるような関係性ではありません。「愛はプライスレス」というわけです。

最後に音声メディアの「マーケティング」について。

マーケティングというのはマネタイズの手法のことですが、以前も「メディアビジネスは今すぐやめましょう」で書いたように、メディアビジネスには基本的に2つのマネタイズ手段しかありません。ToB、つまり広告や物販などのマーケティング。そしてToC、つまりサブスクリプションやギフティングなどの課金モデルです。音声メディアにおいては、「耳の可処分時間」の競合について、よくよく考える必要があると思います。映像メディアを例に、考えてみましょう。成功している映像メディアといえば、無料で広告モデルが主力のYouTubeと、課金モデルが主力のNetflixがありますね。

YouTubeが動画メディアとして最強なのは、Googleが世界最高峰の広告配信網(アドネットワーク)を持っているからです。もともと世界最大の検索エンジンを持ち、広告主側に強いGoogleと広告配信で競って勝てる動画メディアは今のところ見当たりません。一方、課金モデルのNetflixはどうか。実は、勝敗を決めたのはコンテンツの在庫の量です。まず映画やテレビ番組など現存するあらゆる映像作品を仕入れて品揃えを充実させ、他を圧倒します。次に差別化です。もちろんみなさんもご存じのように、映像メディア各社はオリジナル作品にうなるほどおカネをつぎ込んでいます。Netflixの2020年コンテンツ予算は報道によると173億ドル(1兆9千億円)ですから…やばすぎる。

さて、音声メディアはどうか?基本的に課金モデルが主力の音楽ストリーミングアプリは、Netflixと同じ道をたどっているようです。まずレコード会社や音楽レーベルから、アーティストの音源を仕入れるところが第一フェイズ。コンテンツの品揃えを競い合いました。そして現在は第二フェイズに入ってきたようです。

Netflixはオリジナルの映像作品を新たに創り続けていますが、Spotifyは音楽作品をつくるのではなく、ポッドキャストで勝負に出ています。2019年にポッドキャストに関連するGimlet MediaとParcastの2社を買収して、オリジナルのポッドキャスト番組で差別化の勝負に出ました。実際に、ポッドキャストが有料会員を増やしているとSpotify自身の述べています。いまや月間アクティブユーザー(MAU)の合計は2億7,100万人、有料プレミアム購読者数が1億2,400万人の巨大グローバル音声メディアとなりました。

では国内の音声メディアはグローバルプレイヤーにどう立ち向かえばいいのか? IR資料によれば、LINE MUSICが着実にレコード会社や音楽レーベルからアーティストの音源を仕入れて、数字を伸ばしているところです。今のところ音楽ストリーミングとポッドキャストのプラットフォームが分かれていますが、おそらくLINEあたりがポッドキャストのコンテンツ在庫の品揃えをしてくるタイミングがありそうな予感がいたします。

では、音声メディアビジネスはどうなるのか? 今のところ、老舗のApple Music、広告モデルと課金モデルのハイブリッドを進める音声メディアSpotify、動画メディアとのハイブリッドで差別化するYouTube Music、コマースを含めた総合力で差別化するAmazon Music、ポッドキャスト特化でギフティング課金モデルを展開するSPOONラジオなど、多種多様な生態系となっています。

アクターはアーティスト/パーソナリティ、リスナー、スポンサーの3者です。音声メディアは動画メディアほど嗜好性が出にくく、シャッフル再生やプレイリストが主流で検索回数も少ないため、広告モデルは限定的になるのではないかと推測します。ToBであるとしたら、ラジオショッピングのようなコマースモデルか、ポッドキャストのタイアップ番組でしょう。おそらく音声メディアは課金モデルが主力です。

となると、勝敗を分かつのはコンテンツを創る側であるアーティスト/パーソナリティです。クリエイター側の動きを見ていれば、音声メディアビジネスがどのように市場を広げるのかが、きっと見えるはずです。

こんなような話をひたすら雑談する番組をたまに配信していますので、よかったら赤メガネとコムギ「それでもメディアは面白い」も聴いてみてくださいね。それでは、また次回。