Качество звука - это очень сложное понятие которое зависит от огромного количества факторов и их взаимосвязи: типа акустической системы, условий прослушивания, качества исходной записи, самого слушателя и многих прочих. Невозможно дать однозначные рекомендации как добиться качества, нет единого рецепта как нет и идеального звука: запись подготовленная для одних условий прослушивания в других условиях может звучать совершенно неприемлемо. Однако можно попытаться изложить некоторые главные принципы, которые помогут понять что необходимо делать в каждом конкретном случае. Поэтому крайне рекомендуется ознакомиться с этим разделом для более полного понимания возможностей фильтра.

1. Что такое громкость

Этот, казалось бы, очевидный вопрос достаточно трудно формализовать, поскольку в разных случаях подразумеваются совершенно разные вещи.
Наиболее очевиден смысл громкости, когда мы говорим о звуковом давлении, поскольку это то, что непосредственно воспринимается ухом.
звуковое давление - давление, дополнительно возникающее при прохождении звуковой волны в жидкой и газообразной среде. Распространяясь в среде, звуковая волна образует сгущения и разрежения, которые создают добавочные изменения давления по отношению к среднему значению давления в среде. Т.о., звуковое давление представляет собой переменную часть давления, т.е. колебания давления относительно среднего значения, частота которых соответствует частоте звуковой волны. (Большая Советская Энциклопедия)
Таким образом мы можем оценить любой звук - громкие звуки создают большое давление, тихие - малое. Давление измеряется в Паскалях, однако в акустике звуковое давление обычно измеряется в децибелах (дБ) относительно порога слышимости. По определению, величина порога принята равной pt = 0.00002Па = 20мкПа. Порог слышимости принимается за 0дБ, а громкость вычисляется как l = 20 * log(p / pt), где l [дБ] - громкость (в смысле звукового давления), p [Па]- звуковое давление, pt [Па]- порог слышимости. При этом: все слышимые звуки имеют положительную величину громкости; неслышимые (ниже порога громкости) - отрицательную; изменение громкости на 6дБ соответствует двукратному изменению давления; изменение на 20дБ - изменению давления в 10 раз. Громкость в смысле звукового давления далее мы будем называть абсолютной громкостью.

Несколько типичных значений громкости:


1.jpg



Обратите внимание на диапазон воспринимаемых давлений: давление у порога слышимости и создаваемое самолетом отличаются в миллион раз! Поэтому логарифмическая шкала гораздо лучше согласуется с физиологией слуха - линейное изменение звукового давления не соответствует ощущению линейного изменения громкости. Например, изменение звукового давления на 50мПа при разговоре будет очень заметно, однако совершенно незаметно при взлете самолета. Изменение же звукового давления на 6дБ (в два раза) будет воспринято как примерно равное изменение громкости в обоих случаях, хотя в первом случае это будет соответствовать изменению давления на 25мПа, а во втором - 10Па.

Другая громкость - это громкость записи (громкость сигнала). Эта громкость не является звуковым давлением (это может быть напряжение, намагниченность и т.д.), однако, звуковое давление создается в соответствии с громкостью сигнала записи при помощи системы воспроизведения. Каждой определенной громкости сигнала соответствует определенное звуковое давление. Громкость сигнала также может измеряться в децибелах. Однако, если звуковое давление обычно измеряется относительно порога слышимости (минимального слышимого звукового давления), то громкость цифрового сигнала обычно измеряется относительно максимального цифрового уровня, принятого за 0дБ. Таким образом громкость цифрового сигнала выражается отрицательными величинами (-3дБ, -20дБ) поскольку громкость записи всегда должна быть ниже максимальной. Чем меньше значение громкости, тем тише сигнал (-20дБ тише, чем -3дБ). Если громкость цифрового сигнала положительна, то это означает переполнение и, как следствие, возникновение цифровых искажений. (Суть этих искажений будет рассмотрена далее).

Регуляторы громкости на усилителе, в настройках системы, в плеере не создают звукового давления вообще. При отсутствии сигнала даже на при максимальных установках громкости мы не услышим ничего (при условии, что сама система воспроизведения не создает шума). Таким образом они влияют на громкость лишь косвенно и имеют смысл усиления сигнала. (усиление может означать и ослабление сигнала). В дальнейшем термин громкость не будет использоваться для обозначения уровней усиления, за исключением системной громкости, поскольку это уже устоявшийся термин. Под системной громкостью будет пониматься как уровень усиления установленный в настройках операционной системы, так и в плеере, усилителе/ресивере и т.д.

Уровень усиления также может измеряться в децибелах. Это удобно поскольку громкость сигнала и уровень усиления в таком случае просто складываются. Например, сигнал с громкостью 70дБ, усиленный на 10дБ будет звучать с громкостью 80дБ. Однако, несмотря на одинаковые единицы измерения необходимо всегда отличать громкоть от усиления.

При воспроизведении сигнал записи преобразуется в звуковое давление при помощи акустической системы. Пусть максимальное давление создаваемое акустической системой составляет 100дБ. Тогда запись громкостью 0дБ будет создавать давление 100дБ, запись громкостью -30дБ будет создавать давление 70дБ и т.д. При изменении уровня усиления абсолютная громкость тоже будет изменяться. Таким образом изменяя уровень усиления всегда возможно установить соответствие между громкостью записи и необходимой абсолютной громкостью. Например, если уровень диалогов в фильме составляет -30дБ, и мы хотим слышать их с естественной громкостью, то необходимо, чтобы громкость записи равная -30дБ соотвествовала давлению 50дБ. Т.к. при максимальном уровне усиления (0дБ) уровень записи -30дБ создает давление 70дБ (что многовато), то при уровне усиления -20дБ, та же громкость записи создаст необходимые 50дБ давления. Отрегулированная таким образом акустическая система называется калиброванной, т.е. откалиброванная акустическая система - это система, где звуки воспроизводятся с правильной абсолютной громкостью. (На самом деле процесс калибровки может быть гораздо сложнее и включать намного больше параметров, однако здесь и далее мы будем говорить только о калибровке громкости). На большинстве бытовых приборов регулятор уровня усиления никак не маркируется (или наносятся абстрактные проценты или другие ничего не обозначающие цифры), поэтому для пользователя произвести точную калибровку акустической системы достаточно сложно.

На восприятие громкости также влияет свойство адаптации слуха. Слух приспосабливается к громкости окружающего шума, и соответственно корректирует восприятие громкости. Многие наверняка замечали, что человек в наушниках, в которых играет громкая музыка начинает говорить громко (согласно восприятию окружающих), однако с его точки зрения это нормальная громкость речи (относительно громкости звука в наушниках). И наоборот - в полной тишине люди начинают говорить шепотом и при этом шепот все равно кажется громким. В условиях обычного городского шума тиканье механических часов услышать очень сложно - этот звук воспринимается как очень тихий. То же самое тикание часов в полной тишине ночью может восприниматься как четко слышимое. Таким образом возникает третья громкость - субъективная громкость. Мы не будем говорить о каком-либо измерении субьективной громкости, а только о качественном сравнении з вуков (громче-тише).

Таким образом звук одной и той же абсолютной громкости может восприниматься как громкий или тихий в зависимости от окружающих условий. Допустим, мы отрегулировали уровень усиления так, чтобы громкость диалогов в фильме приблизительно соответствовал реальности. Тогда, если в фильме есть звук тикающих в тишине часов, то при просмотре фильма в условиях городского шума мы не услышим часов вовсе, поскольку звук часов значительно тише окружающего шума, а слух адаптирован отсеивать окружающий шум. В хороших условиях прослушивания, когда окружающего шума нет, те же самые часы будут ясно слышны.

Во многих случаях громкость записи удобно измерять относительно некоторого опорного уровня. Например, если громкость записи составляет -20дБ - это громко или тихо? А если нам известно, что громкость диалогов в той же записи составляет -30дБ, то сразу можно сказать, что это достаточно громко, а если громкость диалогов равна -10дБ, то можно сказать, что это достаточно тихо. Уровень диалогов (средняя громкость разговора) - это очень удобный опорный уровень, относительно которого можно легко ориентироваться. Если громкость звука на 10дБ выше уровня диалогов, то это громко, а если на 10дБ ниже - то это тихо. При этом сам уровень диалогов может быть произвольным и зависеть от записи - в одной записи уровень диалогов может составлять -10дБ, а в другой и все -30дБ. В любом случае звуки громкостью ниже уровня диалогов будут восприниматься как тихие, а выше уровня диалогов - как громкие, даже в случае если акустическая система будет неправильно откалибрована, и диалоги будут звучать с абсолютной громкостью в 40дБ или 60дБ. Благодаря свойству адаптации слух приспосабливается к текущей средней громкости и вносит соответствующую 'поправку'. Однако правильное восприятие громкости будет нарушено когда громкость окружающего шума приближается к громкости диалогов (или даже превышает его) - в этом случае все воспроизводимые звуки будут казаться тихими.

Таким образом можно ввести еще одну шкалу громкости (в дополнение к шкале громкости цифрового сигнала и шкале абсолютной громкости) - громкость относительно уровня диалогов. При сопоставлении разных громкостей получим:


2.jpg




В таблице также приведены две гипотетические записи записанные в разных условиях: уровень диалогов в записи-1 составляет -30дБ, а в записи-2 -10дБ. Видно, что при воспроизведении на откалиброванной системе первая запись значительно лучше передает громкие звуки - возможно воспроизводить звуки громкостью до 80дБ, в то время как вторая запись воспроизводит звуки громкостью всего лишь до 60дБ.

Заметим также, что для двух приведенных записей требуется разная калибровка акустической системы. Так, для акустики, способной создавать давление в 100дБ уровень усиления, необходимый для первой записи составляет -20дБ, а для второй - -40дБ. Т.о. первая запись требует значительно бОльшего усиления и при воспроизведении обоих записей при одинаковых настройках уровня усиления первая запись будет звучать значительно тише. Поэтому вторая запись удобна для некалиброванных систем, поскольку допускает сильные отклонения в уровне усиления.

Таким образом запись-1 хорошо передает громкие звуки, но требует большего уровня усиления; при недостаточном усилении и наличии внешних шумов будет восприниматься как черезмерно тихая. Запись-2 не требует большого усиления, хорошо слышна даже на малых уровнях усиления и при наличии шума, но не может хорошо передавать громкие звуки.

А теперь вспомним, что звуковой сигнал - переменный:



3.png



Что брать для расчета громкости? Очевидно, что изменение давления за один период звуковой волны не имеет смысла изменения громкости звука, поскольку мы не слышим отдельные колебания. Поэтому громкость определяется не для одной точки, а на определенном промежутке времени. Есть много разных способов для определения громкости. Простейшие - это определение максимума и вычисление энергии сигнала. Более сложные методики учитывают неравномерность слуха к звукам разной частоты и интенсивности.

При определении громкости как максимума сигнала мы просматриваем диапазон и ищем максимум сигнала:


4.png



Найденный уровень, выраженный в дБ и будет характеризовать громкость. Чтобы отличить эту громкость от полученных другим способом эта громкость также называется пик-уровнем. В дальнейшем мы будем пользоваться только таким определением громкости. В действительности это определение не очень хорошо отражает реальное восприятие громкости, однако оно удобно для последующих рассуждений и поэтому мы не будем более подробно останавливаться на других, более точных методах определения громкости.

2. Гистограмма громкостей.


5.png




Этот рисунок иллюстрирует распределение громкостей типичного DVD фильма (DVD FightClub, здесь и далее берутся только оригинальные аудио-треки, без перевода и без микширования, дабы не искажать звуковую картину). По оси Х откладывается громкость в децибелах, по оси Y - насколько чато звук с этой громкостью появляется. Проще говоря, на протяжении фильма постоянно контролировалась текущая громкость и чем чаще встречается какая-то громкость тем выше с этом месте график. Т.е. можно сказать, что громких взрывов было мало, зато очень много разных фоновых звуков. График поделен на несколько условных областей:

  1. Голос. Уровень диалогов для фильмов - это один из наиболее важных параметров. Он является отправной точкой для всех остальных звуков: все, что ниже - считается тихими звуками, все, что выше - громкими. Хорошая слышимость диалогов это один из главных критериев настройки (о которой мы будем говорить дальше).
  2. Фоновые звуки - проезжающие автомобили, звуки шагов, фоновая музыка
  3. Очень тихие звуки - легкий ветер, шуршание травы и т.д.
  4. Громкие звуки - звонок телефона, удары и прочее
  5. Взрывы и прочие глобальные катастрофы
  6. Шумы записи
Границы между областями весьма условны и могут изменяться для разных записей. В данном случае известно, что уровень диалогов равен -27дБ.
Рассматривая график можно отметить несколько интересных моментов. Во-первых, чаще всего в фильме встречались звуки с громкостью -40дБ. Пока просто отметим этот факт. Во-вторых главный горб расположен от 0дБ (максимальный уровень) до -70дБ (минимальный уровень). Разумно предположить, что все важные звуки расположены внутри этого горба, а все, что тише - просто шумы. Разность максимального и минимального уровней составляет 70дБ. Эта величина называется динамическим диапазоном и будет далее иметь огромное значение.

Для фильмов на DVD привденная картина достаточно типична. Диалоги занимают значительное время, немного больше - фоновый звук и музыка, периодические всплески громкости и периодический же постепенный уход в тишину. В целом, звуковая картина этого фильма достаточно сбалансирована и использует практически весь доступный динамический диапазон.

Теперь посмотрим и на другие фильмы:


6.png




(для всех фильмов уровень диалогов равен -27дБ)
На этих примерах очень хорошо видно разделение на две большие группы. Для первой группы фильмов характерно практически полное отсутствие громких звуков (Cube, Dracula, About Schmidt, Savior). Для них диапазон громкостей от 0дБ до -15дБ (очень громкие звуки) практически не используется. Для другой группы фильмов, наоборот громкие звуки черезвычайно важны (Interstate60, Blood (Last Vampire), Pitch Black, Matrix). Казалось бы, что этих звуков относительно мало, поэтому особой роли они не играют. Однако, например, продолжительность звука выстрела (его громкой части) составляет доли секунды, но именно большая громкость выделяет этот звук. Если бы этот звук был тише, то создалось бы впечатление 'плоскости' и невыразительности звука. В фильмах первого типа ('тихие' фильмы) громкий звук даже если встретится один раз на фильм, он все равно не несет большой смысловой нагрузки, поэтому его громкость не так критична. В фильмах второго типа эти звуки (даже при относительно малой продолжительности) формируют настроение фильма.

Другая бросающаяся в глаза особенность - это высокие 'горбы' в фильмах Cube и Interstate60. В фильме Cube присутствует постоянный тихий фоновый гул и именно поэтому график имеет горб на громкости около -50дБ. То же самое касается фильма Interstate 60 - это путешествие на автомобиле, и как следствие, постоянный звук движения.Формы обоих гистограмм очень похожи, однако максимум гистограммы для фильма Cube находится на 10дБ ниже. Так как уровень голоса в обоих фильмах одинаковый, то сразу можно заключить, что фильм Cube значительно тише. Это далеко неочевидный вывод. Вспомним про свойство адаптации слуха - если сдвинуть графики так, чтобы их максимумы находились на одном и том же уровне фильм Cube все равно будет восприниматься как 'тихий'!

Для прочих фильмов нет настолько хорошо выраженных фоновых звуков поэтому графики более 'размазанны' по динамическому диапазону.
Фильм About Schmidt имеет большой горб на уровне -70дБ..-80дБ. Это шумы записи - в этом фильме они относительно громкие по сравнению с другими фильмами, однако достаточно тихие, чтобы они не мешали просмотру.

До сих пор мы рассматривали исключительно фильмы.

Посмотрим теперь на музыку:


7.png



Сразу бросается в глаза совершенно другое распределение громкостей. (Здесь собраны гистограммы музыки разных направлений и разного качества для того чтобы показать разнообрразие. Они не показывают реального соотношения разных типов композиций.). Все звуки сильно сдвинуты в 'громкую' часть динамического диапазона. Разница в средней громкости фильмов и музыки достигает 40дБ. Кроме того, для фильмов характерен плавный спад гистограммы в громкой области. Для музыки же максимум гистограммы зачастую находится на максимальном уровне (0дБ). Таких графиков приведено немного, однако такая ситуация является очень распространенной.

Понятие уровня диалогов к музыке зачастую неприменимо, поэтому разделить громкие и тихие звуки очень затруднительно. Поэтому также затруднено определение субъективной громкости композиции. Так, субъективно громкая композиция может быть объективно тише субъективно громкой. Большое значение здесь имеют положительные или отрицательные перепадыгромкости, которые на данных гистограммах не видны.

Отсутствие единого ориентира приводит к хаосу - звук из разных источников имеет разную громкость - разница в максимумах гистограмм композиций достигает 20дБ. Да и вообще понятие 'громкости композиции' очень сложно как-то формализовать. Многим наверняка знакома ситуация, когда есть много разной музыки из разных источников и при проигрывании ее подряд (например, если записать AudioCD) громкость постоянно меняется при переходе от одной композиции к другой, что неприятно (а упомянутый эффект несоответствия реальной и субъективной громкости может еще более запутать восприятие). Приведенные графики очень хорошо иллюстрируют такую ситуацию.
Динамический диапазон музыкальных композиций (разница между самым громким и самым тихим звуком) составляет 20-40дБ, что значительно меньше динамического диапазона фильмов (70дБ).