音声コーデック
わからん人用の超簡単な説明
音声コーデックはOpusが最強、それが使えなかった場合はAAC
AACの中でもHE-AAC v2>HE-AAC>AAC-LCと、ちょっと違うぞ!
どれを使うべきかはコンテナフォーマットと相談だ!
音声コーデックとも音楽コーデックとも言う。
ここでは、動画で使われる音声コーデックとそのコーデックの特徴や機能について説明していく。
そもそも音声や音楽は波であるので、それに特化した圧縮方式を用いたほうが効率が良い。
また、音楽は元の全てのデータを保持しなくとも良い。(音楽とは感覚的なものなので、人間への伝わり方が同じであれば削れるだけ削ったほうが良い)
というのも、音楽は、その音楽の全てのデータを保持したのと、ある程度データが削られたものがあるが、
ある程度削ったとしても多くの人間の耳には違いがわからない故である。
テキストファイルのように、中の文章が一部違っては困るようなものはZip等で圧縮するが、
音楽や動画は一部が欠落しても問題無いのである。
全てのデータを保持して圧縮したものは可逆圧縮、全てのデータを保持しないで圧縮したものは非可逆圧縮と言われる。
可逆圧縮コーデックでなく、非可逆圧縮コーデックが世の中では主に用いられるが、非可逆圧縮のほうが、ほとんど同じデータをずっと軽く圧縮できるため、一般的な利用ではこちらのほうが良く使われる。
また、ビットレートが高いと音質が良いと聞いたこともいるのではないかと思うが、
これはコーデックによる。効率の良いコーデックであれば、低いビットレートでもまともに聴けるし、効率が悪いコーデックであれば、高いビットレートじゃないと音質が良くないといったことが発生する。
非可逆圧縮であまりにビットレートを高くしても、可逆圧縮にしたほうがサイズが低く、音質が良い場合もあるので、非可逆圧縮でビットレートを高くしすぎるのはよそう。
最近は、音声コーデックは、低ビットレートでも音質が良くなるように改良されていっている。
今はOpusが最もビットレート対音質が良いようである。少なくとも私は、160kbpsのMP3と64kbpsのOpusの区別は付かない。
それでは主流な音声コーデックを見ていこう。
MP3
名前が有名で、MP3以外を再生できてもMP3プレイヤーって言ったりするぐらい有名である。結構古い規格である。最近、開発終了がアナウンスされた。たまに勘違いされているが、MP3はフリーなコーデックではなく、個人の使用に限ってフリーである。法人等では使わないように。
古いだけあって、ほとんどのコンテナフォーマットが対応している。
AAC
MP3よりも高いサンプリング周波数に対応している。(とは言っても、96kHzも48kHzも私には違いがわからないが)
実はAACといっても何種類かある。一般的に使われるのは、AAC-LCやHE-AAC、HE-AAC v2。
新しく開発されたものほど低ビットレートでも良い音質になるように作られてきている。再生できる音楽プレイヤーはそこそこある。
MP4コンテナの動画では、AACとH.264が一緒に使われることが多い。
コンテナフォーマットはAVI,MP4,MOV,Matroska等が対応している。Vorbis
Ogg vorbisと言われることもあるがOggはコンテナフォーマットである。
Xiph.orgが開発したコーデック。一時期もてはやされた時代があったが、
最近聞かなくなったのはHE-AACやHE-AAC v2が台頭してきたからかもしれない。
オープンソースのコーデック故、宗教上の理由で使う人もいるだろう。
後述のOpusに取って代わられ、既に開発が終了している。Opus
現時点で最強のコーデックだと私は思う。50kbps前後でもまともに音楽が聴けるレベルである。
オープンソース。開発はXiph.orgである。Vorbis使っている人は是非乗り換えるべし。コンテナフォーマットはOgg,MP4,Matroska,WebM等が対応している。Oggに入れられたOpusはOgg Opusと呼ばれる。
また、Opusは実はそもそもIP電話・VoIPを主眼に入れて開発しているため、今後VoIPでも主流になる可能性はある。
尚、余談だが、最近は、Youtubeは音楽はOpus 160kbpsで再エンコードされる。
上記は全て非可逆圧縮コーデックである。
可逆圧縮コーデックにはTAK,FLAC,Monkey'sAudio,LA等がある。ただ、ここは音楽についての説明ではなく、動画を作るための動画に使われるようなコーデックの説明なので、説明は省略する。
また、非圧縮のものはPCM,LPCM,リニアPCM等と呼ばれる。(厳密には、PCMとLPCMは少し違い、PCMにはG.711u-law/a-law等の対数PCMを含むがLPCMはそういったものは含まないがやはり省略。)
可変ビットレート(VBR)と固定ビットレート(CBR)、平均ビットレート(ABR)について
音楽や動画の中でのビットレートの割り振り方には、可変ビットレート、固定ビットレート、平均ビットレートの3種類がある。
それぞれここからはVBR,CBR,ABRと略す。V=Variable C=Constant A=Averageの略である。
VBRは、沢山データ量を割り振らなければその音を再現できないようなところではデータ量を多く割り振るし、逆にほとんどデータ量を割り振らなくともその音を再現できるようなところではデータ量を少なくしか割り振らない、これにより、必要なデータ量のみを常に割りふっていける(無駄が無い)ということである。
ただし、固定でないため、想定したビットレートになりづらいこと、リアルタイム通話などでは一定時間に通信可能なデータ量を越えてしまって、データが一部欠落したりするなどといった欠点もある。
CBRは、1秒あたりのデータ量を常に一定にして割り振っていく。
そのため、データ量を割り振らなくても良いところで割りふったり、圧縮効率が悪い(無駄が多い)といった欠点はあるが、常にデータ量が一定のため、データサイズが基本的に定まっているという利点がある。(ニコニコ生放送では、ビットレート制限があり、これを越えないためにはCBRを基本的に使う。Twitch等ではこの制限はないため、これを使う必要がない。)
ABRはVBRとCBRの中間で、平均して大体同じになるようにしていく。
ただ、当然特徴も、利点も欠点も両方の中間といったところである。
音楽を保存する目的の場合はVBR、通信をする場合で、通信環境が劣悪だったり、配信先に制限がある場合はCBRで良いだろう。
この章のまとめ
音声コーデックはOpus使うべし、新しすぎて対応してない等だったらAAC使うべし
ビットレートで音質が決まるのではなく、同じコーデックを使った時のビットレートで音質の違いがある。
PR
COMMENT