収録レベルの話

昔の音源、特に1990年代半ばまでにリリースされたCDを近年のタイトルと同じプレイリストで再生するとき、古いタイトルの方が音が小さく感じられることは、音楽に携わっている多くの方がご存知かと思います。
これは収録レベルを上げるデジタル技術が一般化した結果、ある程度レベルを「突っ込んで」収録しなければならない、という考えが広まった結果です。

自分の作品を市販タイトルと並べて聴いた時、音が小さいとやや不安に…いや、むしろ「ヒジョーに」不安になる気持ちは、私にもよくわかります。
しかし、これは音楽をリスナーに届ける上で、本当に必要なのでしょうか？

日本のクリエイター界隈ではあまり話題になっているのを聞きませんが、実はむしろ、マキシマイザで稼いだゲインがそのまま制作者に対して後悔となって跳ね返ってくるかもしれない状況が整いつつある…かも知れません。

この項では、音圧上げと呼ばれる行為がそもそもどんなものか、またそれが近い将来に仇となりかねない理由について説明します。

そもそもマスタリングとは

音楽制作における「マスタリング」とは何か？
と尋ねられれば、おそらく十人が十通りの、しかし概ね次の点では共通する答えを返すでしょう。

「目的とする媒体にとって、最適な状態に音源を加工する作業」

たとえば、目的の媒体が「CDアルバム」であれば、頭から最後まで通して聴いたときに違和感のないよう、レベル、周波数、パンチなどのバランスに一貫性を持たせるための加工をします。収録曲ごとにミキシング・エンジニアや作業環境が異なる場合は特に、マスタリングは重要な作業になります。このような作業には主にコンプやEQなどを用います。
また、曲間の空白時間を決めるのもマスタリングの作業に分類されます。

※「ミックス」「マスタリング」といった作業区分は、トータル・リコールの難しかったアナログ時代にルーツがあります。DAW内で完結するワークフローで自身のアルバムを作成するときなどは、トラック間のバランスを調整するのにミックスに戻るというのも有効な手段ですし、むしろその方が2ミックスを処理するよりも良好な結果が得られる場合が多いです。

アナログＬＰのマスターを作成する場合はこれらに加え、再生時に針が飛ばないよう不適切な周波数をカットしたり、レベルを管理するといった作業が伴います。

誰もがPCで手軽にミックスからCDマスタの作成までを行えるようになるまでは、制作工程における「ミキシング・エンジニア」と「マスタリング・エンジニア」の役割は、明確に分かれていました。ツールの入手性が高まり、制作スタイルもユーザの数だけあるともいえる今となっては、その境界線はぼやけつつあります。

ピーク・リミッティングの一般化

さて、20世紀も末頃になり、デジタル・ピーク・リミッタ…いわゆるマキシマイザが登場すると、デジタル媒体のマスタリングに「ピークを抑えて収録レベルを上げる」工程を取り入れる慣習が広まり始めました。
皆さんの中にも、作成した音源を書き出す最終段に、何かしらのマキシマイザを挿して平均レベルを上げる、いわゆる「音圧上げ」の作業を行っている方がいらっしゃるかと思います。

ここで、年代の異なるの二つのCDアルバムを取り込んだ波形を比べてみます。
下図は、1973年に制作されたバンド物のアルバムで、後にCD化されたもの(以降「A」)より、冒頭から数トラックの波形を表示したところです。

トラックのピーク値を測定すると、一方のチャンネルが-1.5dBFSまで上がる瞬間はあるものの、演奏時間の大半は-5dBFSにすら届きません。また、曲中のセクションごとや、トラックごとのレベルに明確な幅があります。(大サビは一段音量が上がるなど）

次に見るのは、同じくバンド物の、2008年にリリースされたタイトル(以降「B」)から、同様に波形を表示したものです。

こちらは先ほどのタイトルとは対照的に、ピークはほぼ絶えず0dBFSに到達しています。また、一見すると曲中やトラック間のレベル差はあまりないように見えます。

ご想像のとおり、再生機器のボリュームを変更しない限りにおいて後者の方が遥かに大きく聞こえます。

音圧戦争Loudness Warの歴史

先の例にあったアルバム「A」のCD版が制作された当時、収録時に可能な限り高い平均レベルでレコーダに突っ込むという概念はなく、唯一注意が払われていたのは、音声信号をA/Dコンバータに入力する際にレベルがオーバー・ロードしない（0dBFSを越えない）ようにすることだけでした。
またCDの収録レベルについて、これといった基準もありませんでした。

※現在も基準はありませんが、たとえば「インター・サンプル・ピーク」の存在が広く知れ渡った結果、ピークを-0.2dBFS前後に設定するといった、慣習のようなものはいくつかある、といえるでしょう。

かくして、マキシマイザという、これまでになかったタイプのツールが誕生します。
マキシマイザは、ほんのわずかな音質変化と引き換えに、入力されたオーディオ信号が指定したレベル（スレッショルド）を超えることのないよう加工するツールです。逆にスレッショルドを越えない信号は、基本的に一切劣化することなく通過します。

この効果は従来のアナログ回路では成しえなかったもので、デジタル信号処理により初めて可能になりました。
こういったツールは開発当初、DAW内でのミックス時にオーバーロードを回避するための保険、つまり「稀に」0dBFSを越える信号に対処するために使用されていましたが、やがて積極的にピークを叩くことでゲインを稼ぎ、CD収録時の平均レベルを上げるために使われるようになります。

アルバム「A」が発売された時期などヘッドルームを十分に確保することが一般的であった頃、デジタル収録(PCM方式)の上限レベルである0dBFSは、近付く必要もない代わりに、まれに近付いた場合には決して越えてはならない『線』と見られていました。
それがやがて、一瞬でも長く頭を近づけていたい『天井』として認識されるようになったのです。

そもそも、速く鋭いアタックはアナログの録音媒体では再現が難しい部類の特性を持つ信号で、それを再現できることがCDをはじめとするデジタル録音媒体の強みであったはずです。それを放棄してまで、収録レベルが上げられるようになったのはなぜでしょう？

その辺りの事情はプロジェクトによりけりでしょうが、おおよそ以下に分類されるかと思います。

「人間の聴覚は、相対的に大きい方の音を『良い音』と感じるため」
同じ音源をDAWの複数トラックにコピーして並べ、一方を1dB下げ、切替ながら身近な人にどちらが良く聴こえるか尋ねてみてください。当然、トラック間で何が違うのかは教えないように。おそらく多くの人が、大きい方をよく聞こえると答えるでしょう。
「ラジオの乗りをよくするため」
実は、このフレーズは2つのまったく異なる意味を持ちます。 1つ目は先の1と同じく、大きい音の方が相対的に派手に聞こえるため、ラジオに流れたときにザッピングしているリスナーを足止めしたり、CDセールスに結び付けられると考えられたため。ただし、後述するようにこれは誤った認識であるどころか、多くの場合マイナスに作用します。
二つ目は、ラジオ番組の選曲者の注意を引きやすいという意味です。ディレクターがオンエアする曲を選ぶ目的でCDを順に聴いているときなどは（再生機のボリュームを変更しないという前提で）大きく聴こえた方が相対的にはインパクトがあり「おっ、このCDアガるねぇ、これをかけよう」という結果を狙って…という考えです。
他のタイトルより小さく聴こえる（＝派手に聴こえない）と、商売上不利に思われるから。
おそらく、マキシマイズが施されたタイトルのほとんどは、この理由が背景にあると思われます。

かくして、製作者が互いに争った結果、CDの平均収録レベルは際限なく上昇を続けました。

さきほど、デジタル・ピーク・リミッタが違和感のないようピークを抑えられると話しましたが、これはあくまで、ちょっとしたオーバーロードを抑制する程度に使用する場合です。競争が進むほどに市販タイトルの多くはアタック感を失い、歪みを増し続けました。

次の図が示すように、ピークを抑えるというのは、基本的に正弦波を矩形波に近づける作業もあります。

ここでは1kHzサイン波をマキシマイザに通すことにより、矩形波の特徴である奇数倍音が可聴域に現れているのがわかります。

興味深いことに、この音圧競争は、CD以外のデジタル媒体にはさほど顕著に現れませんでした。
※ただしDVDプレイヤーがオートゲイン設定時に参照するメタ･データを、最大のゲインが得られるよう不正申告するコンテンツは存在したそうですので、まったく無縁でもなかったようです。

やがて、CDばかり競争の激化が進んでいたことを象徴する出来事が2008年に起こります。
Metallicaのアルバム「Death Magnetic」が、過度に掛けられたコンプレッションのため躍動感に乏しく、録音も歪みだらけの状態でリリースされました。まもなく、著名レコード会社の著名バンドによる最新作がかくも悲惨なことになった経緯を、音楽専門ですらない各種一般誌が音圧戦争の背景を交えながら一斉に取り上げたのです。

一方、このアルバムの収録曲がいわゆる音ゲーである「Guitar HeroⅢ」用のダウンロード・コンテンツとして提供されるようになりました。
ゲーム業界にも収録レベルについて明確な基準はありませんでしたが、多くのメーカがそれぞれの社内基準を有していたため、同じMetallicaのタイトルが、比較的余裕のあるレベルでマスタリングされました。

ここにきて、本来は音楽専用の媒体であったはずのCDが、ゲームのサントラよりも品質で劣るという奇妙な逆転現象が生じたのです。

さて、ここで突然水を差すようですが…
そもそも購入したCDを聴くとき、再生するボリュームを決定するのは、他でもなくリスナー自身です。
制作者が個々の購入者の家に乗り込んで、再生アンプのボリュームを調整してあげられるわけではありません。音量が小さいと感じればリスナーは音を上げますし、大きすぎると感じれば下げるだけのことです。

なのに果たして、ピークを潰してまで平均レベルを上げるのは、リスナーの望むところでしょうか？

リミッティングにより音楽に何が起るか

ここまで、いわゆる「音圧上げ」の行為を、「ピークを潰す」あるいは「ピークを抑える」と表現してきました。
では、信号中のピークを潰すと、音はどのように変化するのでしょう？

それぞれの楽器は、音量変化について多様な個性を持っています。

ピアノやアコギのように、強いアタックと持続する音程を持つ楽器
ドラムのように、アタックは鋭く大きいが、余韻の短い楽器。
ホーンのように、ある程度は上記のいずれも表現可能な楽器。

ときに「音の大きさ」「音の高さ」「音色」が音の三大要素であるといわれます。「音の大きさ」を時間軸に展開し拡大解釈すると、アタックの形状や大きさが他のパートと比べてどのぐらい違うかというのもまた、各パートの個性を決定付ける重要な要素の一つであるといえます。

※クラリネットやサックスなどのリード楽器は、収録音をフェードインさせて持続部分だけを聞くと、意外と楽器を判別するのが難しいといわれます。機会があれば試してみるのも面白いかも知れません。

そのようなアタックの混ざり具合や、曲中で登場する場面を設計するのも、アレンジ力の見せ所の一つであるといえます。

ピーク・リミッティングとは、これらトラックが持つ個性の一つを均(な)らして打ち消すことに等しい行為です。

また、リミッティング後の音が少し暗く感じられることから、よくEQによる辻褄合わせの作業が行われます。聴感上の周波数バランスは取り戻せるかも知れませんが、ヒトの聴覚が奥行きやヌケの良さ、パートを区別する際に参照している「アタック感」という要素は、未来永劫失われます。

マキシマイズのメリット・デメリット

アタックを削ることによる効果は、必ずしも悪いものばかりではありません。
ここで一旦整理がてら、マキシマイズ（あるいはアタック／リリースが速いダイナミクス処理全般）による主なメリット、デメリットを挙げてみます。

メリット

収録時の平均レベルを上げることで、信号をオーバーロードさせることなく聴感上の音を大きくできる。
※ただし、前述のように再生時にはリスナーが任意のレベルに合わせることになるので、必ずしも意味があるとはいえません
パートの音量差がなくなるので、電車内でのイヤホン鑑賞時など、埋もれて聴こえにくいパートが前に出てくる。
（一定以上の年代の方は、高速道路に乗ったときにカセットテープの音が雑音に埋もれ、ドラムしか聞こえなくなる状況を想像できるかと思います。）
強すぎるアタックを抑える。
ときに、広すぎるダイナミック・レンジは耳障りになることがあります。
オン気味に録ったドラムのパーツなどがこれに属しますが、これはマスタリングではなく各トラックに対してダイナミクス処理を行う方がクリアな結果が得られます。

デメリット

音が歪む
前述のように、信号波形を潰すのは元の正弦波を矩形波に近づけることに相当し、原音にない奇数倍音を発生させます。
押し出し感、躍動感が制限される
ベースやドラムが解りやすいかと思います。アタックが潰れているので押し出し感がなく、スネアなどは音が前に飛んでこない詰ったような音になり、「耳には聞こえるが体に響かない」サウンドになります。
絶えず高い平均レベルをが耳に届くことになり、個人差はあるものの聞き疲れしやすくなる。
処理が非可逆である

マスタリングを行う際に、想定リスナーの視聴環境に合わせて処理の方向性を決めるのは重要です。
しかし、先のメリットとして挙げた事項はいずれも、再生機側にインテリジェントなアルゴリズムを搭載すれば、再生時に実現可能なことばかりです。
現在すでに多くのプレイヤーに簡易ＥＱが付いているように、このシャッフル再生時代に合わせ、適当なコンプレッションを加える機能を搭載したプレイヤーが出てもおかしくはありません。
CD自体はハイファイな音声を収録するポテンシャルがあるにも関わらず、劣悪な環境で聴かれることを想定した処理を施すことには疑問を覚えます。

※余談ですが、Slate Digitalは同社製品FG-Xについて「自然に圧縮できない音源があれば送ってくれ、対応できるようアルゴリズムを改良するから」とユーザに呼びかけ続けています。後述する事情からマキシマイザの使用が緩やかになる近い将来を見据え、FG-Xの次世代アルゴリズムを再生機器メーカにライセンス販売する計画ではないかと、私は想像（妄想）しています。

マキシマイザは必要か？　筆者の私見

コンプで詰め込んだ音を現代のサウンドとみなすのは結構ですし、そのサウンドが核となっているジャンルも中には存在します。しかし、他のタイトルと同等かそれ以上にラウドでなければ見劣りするという脅迫観念から、本来ピークを残した方が活き活きとするジャンルまでもがサウンドを犠牲にする「チキンレース」の状態が続いていることは、私もいちCD愛好家として残念に思います。

雑誌記事やネットには、いかに奥行きを保ったまま音圧を上げるか、といった内容の記事が散見されます。
ご自身で制作をされている読者の中には「マキシマイザを通さない方が音がクリアで広がりもあっていいのになァ」という状況に覚えのある方もいらっしゃるかも知れません。その感覚はむしろ正常です。
先述のように、微細なレベル変動を平たく均すことにより、奥行きの認識やパートの分離に役立つ1つの要素をわざわざミックスから排除しているわけですから。この損失はEQやリバーブによる補正で取り戻せるものではありません。
ことに、ピークのたくさん立った生楽器主体のミックスが、打ち込み音楽の平均レベルに迫ろうとすることがそもそも無理な話であるともいえます。音作りを目的としたトータル・コンプは別として、高いクレスト･ファクター（信号ピークと平均レベルの差）でしか表現できない広がりを残すために、マキシマイザを一切かけないという選択肢もあるのです。

「どんなに努力して音圧を上げたところで、フルートかチェンバロによるソロ演奏を、ただノーマライズしただけの聴感レベルには勝てやしません」Bob Katz

繰り返しになりますが、マキシマイザによりピークを潰してまで平均レベルを0dBFSに近付けたところで、不要に音が大きければ、リスナーは自らボリュームをしぼるだけです。

これまでの話の中で、「躍動感がない」「体に響かない」「聞き疲れする」というキーワードが出てきました。
好みの問題とすることも可能ですが、こういった条件が無意識のうちに音楽鑑賞を以前ほど楽しいものではなくし、今世紀以降CDが売れなくなったとされることと無関係でないかどうか、検討の余地はあると思います。
また、関連が「真」であるとすれば、競合他社よりCDを売ろうとした結果として、こんな本末転倒なことはありません。

さらに、このように「音質よりも音圧」を重視したCDが氾濫する中、もとより器としてのポテンシャルを放棄したタイトルと比べてハイレゾの方が上質とするマーケティングにも疑問を覚えます。CD登場時よりも遥かにコンバータや制作環境の品質が向上した今だからこそ、CDにだってまだまだやれることがあるはずです。

音圧戦争に抗うムーブメント

さて、ここまでの話は、実は9割方が他者の受け売りです。
日本以外の制作現場において主流の考えといえるのかどうかは判りませんが、少なくとも英語圏の書籍やオンラインのフォーラムをあたれば、音圧戦争の弊害に関する資料や議論がわんさと出てきます。
以下に、音圧戦争に終止符を打つべく、世界で起こされたアクションの例をいくつか挙げます。

K-System

マスタリング・エンジニアであるBob Katz氏が2001年頃に提唱したワークフローです。
マキシマイズによる音質劣化が加速しつつあったことを懸念して考案されたもので、アプローチが大変個性的です。

核となるのは氏が独自に考案したユニークなRMSメータ「K-Meter」で、これの使い方を詳細に規定することにより、オーバー･コンプレッションの問題にとどまらず、モニター環境にまつわる問題までもを一挙に解決することを試みたのです。

このシステムに従うと、まず作業中にピーク・メータを見る必要がなくなるため、アナログ時代と同様にVUに似た、しかし目盛りの打ち方が若干異なるRMSメータと耳だけを頼りにマスタリングまでを行うことができます。
また、ピーク・レベルを意識する必要がないということは、近付くべき0dBFSの天井も存在しないため、「音圧を上げるためだけのマキシマイズ」やそれに伴うサウンドの劣化を回避できます。

K-Systemの環境構築方法について日本語圏を探してもまとまった情報が出てこないあたり、その認知度はお察しのとおりですが、K-meterは実は意外と多くの製品に搭載されています。以下はその一部です。

T-Racks (IK Multimedia)
Ozone (iZotope)
Studio One 2(Presonus)
Wavelab (Steinberg)
Precision Limiter (Universal Audio)
Xenon (PSP audioware)
Spectrafoo (Metric Halo)
SPAN (Voxengo)

私がすでに知っているものだけでもこれだけあるので、探せばまだまだ他にもあるかも知れません。
ちなみに一覧中のSPANはフリーのVSTプラグインで、私も愛用しています。

※K-systemの実践方法は、別記事「K-Systemとは」をご覧ください。

Pleasurize Music Foundation

http://dynamicrange.de/
音圧が高いことはいいことだ、という考えを迷信と断じ、すべての音楽は10dB程度のダイナミック・レンジを確保すべき、と啓蒙しているサイトです。
ダイナミックレンジを測定する無料プラグインを提供し、その測定結果の値を独自ロゴとともにCDパッケージに記載するよう呼びかけています。
たとえば「DR10認定済み」、すなわちダイナミック・レンジが10dB以上あることを示すラベルをCDに記載することは、音圧戦争に加担するためにサウンドを犠牲にしていないことの証であるとともに、逆にそうでない製品（過度に音圧上げされた録音物）が世に蔓延していることを消費者サイドに啓蒙することにもなるわけです。
また、音楽業界のこの傾向を転換すべく、賛同者にさらなる周知を呼びかけるDynamic Range Dayを年に一日設けています。

一方、日本では

国内の某巨大掲示板でも過去に上記のような話題が出ていますが、私が見た限りでは「音圧稼げない負け犬の遠吠え」として一蹴されて終わるパターンか、「そうは言ってもアーティストが」「そうは言ってもディレクターが」という非建設的な話に終始していました。
近年、日本のテレビ放送でも後述するラウドネス・ノーマライゼーションが運用されるようになりましたが、音楽制作の現場、ましてクライアントとのしがらみなどなく本来自由に表現活動ができるはずのアマチュア界隈には、まだ浸透していないように見えます。

収録レベルの未来

映画産業や放送（映像）業界には、音声の録音レベルについてわりと厳格な基準レベルが存在します。一方、音楽に特化した媒体であるはずのCDには、そういった強制力のある基準もなければ推奨値すらありません。

では適切な収録レベルなどあるのでしょうか？

しばらく前であれば、個々の好みの問題でしかなかったでしょう。
しかし、2012年に業界にある動きが起きたのを境に状況が一変しました。

放送、配信業界は『ラウドネス・ノーマライゼーション』を志向している

『ラウドネス・ノーマライゼーション』という概念があります。
双璧を成す『ピーク・ノーマライゼーション』は、この記事の読者ならご存知のとおり、曲中のピーク値が0dBFS、あるいは任意のレベルに合うように全体の信号レベルを増減する処理です。リミッタなどでピークを抑えるほどヘッドルームが生じますので、ピーク・ノーマライゼーション時に全体の平均レベル（いわゆる音圧）が上がります。代わりに、クレスト･ファクター（平均レベルとピークの差）は狭まります。

ラウドネス・ノーマライゼーションでは、聴感上のレベルとはあまり相関のないピーク値を重視せず、代わりに聴感上のレベル（ラウドネス）が目的とする基準値に合うよう、曲、または番組全体のレベルを均一に上下します。

そもそも、これまでラウドネスを定量的に測る際に信頼できる方法、ましてや統一基準というものは近年まで存在しませんでした。
ラウドネスの測定方法が規格化され、これに基づくレベル管理は欧米の放送局、少し送れて日本でも運用されるようになり、音楽配信プラットフォームにも徐々に広がりを見せつつあります。

以下に、鍵となるキーワードを順に説明します。

ラウドネスの測定仕様　ITU-R BS.1770-3 / EBU R128

2010年8月、ラウドネスの測定、評価基準であるEBU R128が策定されました。また、2012年8月には、国連の機関であるITUよりITU-R BS.1770-3が同様に策定されました。

この仕様策定の動きは2000年前後から既に始まっていたのですが、何度かの改訂や、問題点解決のためのアルゴリズム変更を経て、現在のかたちに落ち着きました。

上記二つの規格は、お互いの長所を取り入れるうちに同一のものとなり、現在では同じ仕様を指すようになりました。レベルを表す単位もITUがLKFS、EBUがLUFSと異なるものの、同じものを指します。

※同一の仕様が、複数の業界団体によって異なる名称を与えられるのはよくあることです。たとえば映像の圧縮方式では、ITUの定めた「H.264」と、ISO/IECが定めた「MPEG-4 Part10 AVC」は同じ仕様を指します。

では、これら仕様に沿って測るレベルは、これまでVUメータの表示やdBFSの平均値として表してきた数値とどのように違うのでしょうか？

長年スタジオで使用されてきたVUメータには、1つ決定的な弱点あります。
ご存知のように、ヒトの耳は同じレベルの信号でも、周波数帯によって聴感上のレベルが異なりますが、VUメータはこれを考慮せず、信号の電圧のみを測ります。
可聴域外の周波数（大抵は低周波）を入力することで、ほとんど聴こえない音がVUメータをブンブン振っている状況は、シンセサイザーなどで作曲をされている方は容易に想像できるかと思います。

BS.1770 / R128は、長い年月をかけて綿密に設計されたアルゴリズムを用いて、実際に耳が感じるラウドネスを数値で表します。
また、VUメータはせいぜい数百ミリ秒の平均値で表しますが、BS.1770 / R128は、楽曲や番組の中・長期的なレベルも同時に表します。
その際に、全体の一部が静かな時間で埋め尽くされたからといって全体の平均が下がりすぎないように、また映画であれば大きな爆発音があるからといって全体としてレベルが高すぎると評価されないよう様々な工夫がなされています。

実際に試すとわかりますが、年代別のCDをLKFS/LUFS値が揃うようにゲインを調整してDAWに並べると、プロジェクトのどこから再生してもほとんどの曲が同じようなレベルに感じられますので、よくできたアルゴリズムだと思われます。
※コンピレーション盤を作るなら、ＥＱバランスなどは調整の余地があるかも知れませんが。

すでにファイル形式で保存されているオーディオや映像の音声トラックは、ラウドネスを測定する際に実時間で再生する必要はありません。昨今の制作環境に耐えうるスペックのPCを使えば、一般的なポップス曲なら測定は一瞬で終了します。
特に長尺のプログラムにおいて、このような評価作業が自動化できるのは画期的なことです。

魔法の数字「-23」

上記の規格が制定された2012年、欧州の放送業界ではいち早くラウドネス基準が運用されることになりました。
これにより、放送されるあらゆる番組のラウドネスは、-23 LUFS ±1の範囲内になければならないと定められました。

また、米国では-24 LUFS ±1が基準となりました。
ただし、欧州では許容されるピーク値が-1dBFSなのに対し米国では-2dBFSが上限となっていますので、表現に使用できるレンジは結果的に同じです。

日本では少し遅れて、2012年10月に、米国と同じ基準値でテレビ放送における運用が開始されました。すでに、この基準を満たさない放送マスタの納品を受け付けないテレビ局もあります。

実際に市販の音源や自作曲を測っていただくと気付くでしょうが、-23LUFSというのはこれまでのCDの感覚に照らすと相当に低いレベルで、ヘッドルームは十二分に余ります。
どのみち番組製作時にレベルを下げられてしまうのであれば、少なくとも放送される前提のマスタリングを行う限りにおいては、収録レベルを上げるためだけのマキシマイズは損でしかありません。

過度にレベルの上下を抑制したミックスは、そうでないものと比べるとパンチに欠け、ナレーションを重ねた場合などには一層、遠のいて聴こえます。

ここで、この章の冒頭で波形を見比べた2枚のアルバムより一曲ずつ選び、いずれも-16.5LUFSになるように揃え、重ねて表示してみます。 ※ここで-23ではなく、-16.5を選んだ理由は後述します。

中央の赤い長方形が先ほどのアルバム「B」のトラックです。
いずれも-16.5 LKFSに揃えて（ラウドネス･ノーマライズ）されています。

たまに、DAW上で四角くなった、いわゆる海苔波形を指し「エネルギーがたくさん詰っているのでインパクトがある音になっている」と説明されているのを見ますが、それはあくまで波形が四角くなっていないトラックと比べて同じボリューム位置で再生したときのことです。

ピークを潰した方のトラックは「エネルギーがたくさん詰っている」ことが仇となり、放送時にレベルを下げられます。ピークを残している方のトラックはドラムの一発一発も抜けがよく、クリアでラウドに聴こえます。

上記の波形を見比べると、ぱっと見た感じどちらの方が派手に聴こえそうですか？

さて、ここで一つ疑問に思われるかも知れません。
「これって放送の話で、オンエア予定のないCDには関係ないよね？」

これが実は、そうでもないのです。

iTunes SoundCheck

iTunesやiOSデバイスには、SoundCheckといって、再生トラックの音量を自動的に揃える機能が搭載されています。 2012年初頭、Apple社が「Mastered For iTunes」（以下、MFiT）というサービスを公開したのに合わせ、反音圧戦争界隈で、この機能がにわかに注目を集めるようになりました。

SoundCheck自体は2012年よりも前から存在し、デフォルトではOFFになっています。
iTunesの場合、設定メニューより有効にするチェックを入れると、即座にライブラリ全曲の音量スキャンが開始されます。以降、チェックを入れている間は再生トラックのラウドネスが統一され、異なる年代やジャンルのタイトルを混ぜたプレイリストを再生してもおおよそのレベルが一定に保たれます。突然の音量変化にリスナーが慌ててボリュームに手を伸ばすような場面は激減するものと思われます。
ここでポイントなのは、SoundCheckが曲中でフェーダを動かすようにしてレベルを変化させているのではなく、トラックの再生開始ごとに決まった値だけレベルを増減させている点です。

SoundCheckが用いているラウドネス検知のアルゴリズムやターゲットとする基準レベルは公開されていません。各国のエンジニアが分析した結果ですが、どうもITU-BS.1770やEBU R128に近い計測方法で、-16.2～-16.7LUFS程度になるよう調整されているようです。
自分の作品がSoundCheckによりどの程度影響を受けるか検討する場合は、だいたい間をとって-16.5LUFSを参照値としてよいかと思います。

一般的なポップスで、16dBのヘッドルームなど、そうそう使い切れるものではありませんので、少なくともiTunesに最適化するマスタリングを行う場合、マキシマイザが必要になることはないでしょう。

このSoundCheck、iTunesでは任意の機能となっていますが、iTunes Radio（以下、iTR）では、すでに強制的に有効になっていることが確認されています。私自身が調査したところ、近年の標準的なレベルで収録されたトラックは、6dBから、高いもので12dB程度レベルが下げられる計算になります。

※手持ちの市販曲を測定した「市販曲ラウドネス一覧」を本サイトにて公開中です。SoundCheckにより、各世代、各ジャンルが送出時にどのぐらいレベルを下げられてしまうか、参考までにご覧ください。

ここでもまた、音圧上げだけを目的とするマキシマイズが仇となります。
幸運にも作品がiTRでエアプレイされることがあっても、前後に掛かるライバル曲がマキシマイザへの入力レベルをほんの3～4dB控え目に設定していれば、そちらの方が鮮明でラウドに聴こえることでしょう。

そもそも、先の放送基準は、番組やCMによって音量が一貫しないために生じるユーザの不便を解消するために導入されたものです。（米国では、CMだけ音が大きいという視聴者からのクレームに対応するためという、比較的消極的な理由で導入されました。）

iTunesでライブラリの曲を再生するときSoundCheckはデフォルトでは無効になっていますが、ある日Apple社がデフォルト設定をONに、あるいは強制的にオンに固定した方がリスナーの利に適うと判断すれば、この状況がひっくり返るかも知れません。そうなると、今世紀の高音圧かつ低ダイナミクスの曲よりも、しっかりとダイナミック･レンジを維持した前世紀のタイトルの方がよほどパンチがあるように聴こえるという状況が生まれます。

私もこの話を聞いたとき、いくらAppleといえども、かくも強権的にユーザの視聴スタイルに干渉してくることはないだろうと考えました。
しかし考えてみれば、これまでにもiPod/iTunesを中心としたエコシステムにより、音楽の聴かれ方を変え、保守的であった音楽流通のシステムを一変させた同社のことです。Appleが正義と判断すれば、SoundCheckをデフォルトで有効にしてくるぐらいのことは十分ありえそうです。

※iTunesが登場するまで、所有する音源の全曲シャッフル再生は、リッピングやmp3変換に必要なツール…それも現在ほど使い勝手のよくなかったものの使い方を覚え、手間暇かけてライブラリを構築する熱意と根気のある、一部の愛好者のみが行っていました。

※独自のコピー・プロテクションを伴った音楽のネット販売プラットホーム普及を試みた業者は、それまでにいくつかありましたが、多くが普及に至らず、既に消滅しています。

また、MFiT策定の背景にBob Ludwigや、STERLING SOUNDの面々といった著名エンジニアからApple社への働きかけがあり、Appleがこれに真摯に対応したという話を聞くと、SoundCheckが今後有効になる可能性の方がむしろ高いと考えるようになりました。これらのエンジニアの多くは、これまで説明したようにマキシマイズはもう必要ないとの声を発信しています。

この辺りの詳しい経緯は、iTunes Music: Mastering High Resolution Audio Delivery に記載があります。ライト・ユーザ向けと間違えそうな表紙とは裏腹に、AACエンコーダの特性、アルゴリズムの副作用による影響を最も受けにくい収録レベルなど、濃い内容が詰った良書です。

YouTube (2015/6/1 追記)

2014年12月よりYouTubeが、アップロードされた作品に対してラウドネス・ノーマライゼーションを行うようになりました。
使用されているラウドネス検出のアルゴリズムは、前述のITU-R BS.1770-3、EBU R128のいずれとも異なるようなのですが、いろいろな方が実験を行った結果、どうもこれらの基準で-13LKFSに合わせたときに近いレベルに揃えられるそうです。
これにより、少なくともYouTubeに掲載する音源については、聴感レベルを上げるためだけに-13LKFS以上のレベルで収録することは、デメリットしかなくなったといえます。

具体的な収録レベルの提案

さて、今後作成した曲をどのぐらいのレベルで収録すればよいかについては、これまでのところ明確な基準や規格が提示されていません。そこで、一つ提案させていただきます。

目標値として-16LUFSなどはいかがでしょうか？

先のように、これより高いレベルで収録されたものは、SoundCheckに掛かるとレベルを下げられますが、変化幅は最小にとどめることができます。

逆にこれを下回ると、ラウドネス・ノーマライズ時にレベルが上げられる可能性があり、もしピークがすでに0dBFS付近にある場合、増加分によりD/Aコンバータをオーバーロードさせるおそれがあります。

収録レベルをわざわざ下げることによりヘッドルームを残すことは、CDの持つ16ビットを完全に使い切らず、音質面で不利だと思われるかも知れませんが、その限りではありません。

現在はハイレゾ相当の編集工程が一般的になりました。バウンスやトラックダウンの過程で正しいデータ・レートの管理やディザ処理などを怠らなければ、この程度のリダクションはさほどの影響はないと考えます。
どのみち、マキシマイザでレベルを持ち上げたため再生時にデジタル領域で12dB下げられた音源は、すでにDACの有効ビットを2つ無駄にしていることになります。

第一に、過度にピークを潰すことにより開放感や躍動感を削ぎ、楽音と相関のない倍音を付加することの方が、マスターの有効ビットを1つ2つ削るより遥かに多くのものを、演奏やアレンジから奪うと私は思います。

不安があれば、試しにご自身の作品をマキシマイザ（および、辻褄合わせのためだけに挿したＥＱやマルチバンドコンプ）有り、無しの二バージョンを用意し、DAWに並べてLUFS値が-16.5に揃うようにレベルを調整し、A/B比較してみてください。どちらの方が気持ちよく聴くことができますか？
身近な方に、背景は説明せずに聞き比べてもらい、意見を尋ねるのも面白いかも知れません。

最後に

ここまでの話を読んでいただき、「収録レベルアップのためだけのマキシマイズ」を控える、あるいはマキシマイザを一切使わないことを少しでもご検討いただければ、私としても書いた甲斐があったというものです。

方法論としては比較的新しいものに聴こえるかも知れませんが、蓄音機が発明された瞬間から今日に至るまで、以下の基本事項は一度も変わっていません。

収録レベルに関係なく、リスナーは自分にとって最適な音量に変えるもの。
聴感レベルを揃えると、ダイナミック・レンジを狭めた音源の方がむしろショボく聴こえる。

マキシマイザの使用が表現を制約し、チキンレースへの参加に他ならないことをアーティストやディレクターに説明できるのは、残念ながらエンジニアだけです。政治的な事情から、あるいは立場上、そういった説明をクライアントにするのは難しいでしょう。しかし、もしサウンドを重視できる賢明なアーティストやディレクターを説得できそうなチャンスがあなたに訪れたとき、あるいはアマチュアが収録レベルに迷ったとき
ここにまとめたお話が、その素晴らしい楽曲を、素晴らしいままにリスナーまで届けるヒントになれば幸いです。

将来的にラウドネス・ノーマライゼーションが今よりもさらに一般的になったとき、エンジニアやディレクターがマキシマイザで削ったdB数だけ、それが呪いとなって彼ら自身に降りかかることを私は懸念しています。願わくば一つでも多くの作品が、また一人でも多くのアーティストがそのような難を逃れられますよう祈りつつ、本記事の結びとします。

その他の記事