3. Проблема громкости DVD.

В среднем уровень громкости на музыкальных записях (а также системные звуки Windows) оказывается значительно выше чем на DVD-фильмах. Поэтому при одинаковых настройках системной громкости абсолютная громкость фильмов будет значительно ниже и при наличии внешних шумов может оказаться недостаточной, слышно будет плохо (sic!) и будет казаться, что звук некачественный. Увеличение усиления в настройках системы и на усилителе даже до максимальной может не решить проблемы: разница в средней громкости достигает 40дБ, что очень много. Однако, даже если мощности усилителя окажется достаточно и проигрывание DVD происходит с достаточной абсолютной громкостью это не всегда удобно, поскольку звуки операционной системы, которые звучат с нормальной абсолютной громкостью при нормальных настройках усиления при большом усилении будут просто громоподобными.

Эта проблема характерна в основном для компьютерного проигрвания, поскольку в аппаратных проигрывателях управление уровнем усиления осуществляется самим декодером. Некоторые программные DVD-проигрыватели умеют управлять системной громкостью, однако это тоже не всегда удобно, поскольку изменяется громкость всех звуков системы (можно случайно оглушить соседей), да и управлять громкостью на внешнем усилителе программа все равно не может. Поэтому это только частичное решение проблемы.

Компромиссное решение состоит в обработке звука непосредственно перед проигрыванием. Подобная обработка может сильно повысить качество проигрывания конкретной записи и в конкретных условиях. Многие могут возразить, что при этом теряется 'качество', однако, как уже упоминалось - нет абсолютного качества, Мы не ставим себе целью монтировать звук, наша цель - добиться того, чтобы в наших условиях слушать его было приятно. Если акустическая система не обладает достаточной мощностью или у нас нервные соседи смотреть фильм с пониженной громкостью, когда не разобрать половины слов и не слышно половины тихих звуков будет просто неприятно. Даже самовнушение о максимально достигнутом 'качестве' не сможет сгладить этого впечатления. Еще раз повторю основную мысль: качество - это то, что мы слышим. Звук проходит много стадий обработки до того, как попасть к слушателю, а разнообразие акустики и ее свойств настолько велико, что последняя стадия обработки непосредственно перед воспроизведением является практически необходимостью.

4. Изменение уровня. Переполнение, обрезание и ограничения.

Изменение уровня - это просто умножение амплитуды сигнала на определенное значение, в результате чего изменяется громкость всего сигнала (увеличивается или уменьшается).


1-png.395



В логарифмическом виде умножение на число - это просто прибавление константы. Поэтому если ко всем уровням прибавить одно и то же число, то гистограмма уровней просто сдвинется:


2-png.396



Если мы умножим сигнал на слишком большое число, то возможно переполнение. Если переполнение не отслеживать, то значение амплитуды принимает практически случайные значения (см. рисунок) и это приводит к очень заметным на слух частым щелчкам. Самых простой способ борьбы с этим дефектом - обрезание сигнала (клиппинг, clipping), т.е. там где амплитуда сигнала выходит за перделы мы 'обрезаем' его (см. рисунок). При небольшом переполнении клиппинг практически незаметен на слух, однако при повышении уровня он проявляется как 'песок' в звуке.


3-png.397



Более сложный, но и более эффективный способ - это ограничение сигнала (лимитинг, limiting). Суть его состоит в том, чтобы автоматически понижать уровень сигнала так, чтобы переполнения просто не происходило. Для этого необходима система автоматической регулировки усиления (АРУ, Automatic gain control, AGC), которая будет вносить поправку в текущий уровень сигнала. Так, пока переполнения нет АРУ не изменяет сигнал, а как только сигнал превышает максимальный уровень вносится поправка, которая изменяет сигнал так, чтобы его уровень не превышал максимальный. Как видно на рисунке, сигнал полностью сохраняет свою форму! Однако, громкость при этом остается максимальной:


4-png.398




Необходимо обратить внимание на то, что на предыдущем рисунке приведена амплитуда, а на этом - громкость (определенная по большой группе амплитуд). Поэтому несмотря на то, что график громкости 'обрезан' форма самого сигнала искажается минимально. Этот способ также не лишен недостатков. Изначально звук имел разную громкость, а после ограничения все звуки выходящие за пределы имеют одну и ту же громкость и звук может получиться 'плоский' и невыразительный. Посмотрим на гистограммы (Fight Club):


5-png.399



Здесь приведен пример неудачного усиления. При усилении +10дБ искажения еще мало заметны (мест в фильме где возникает переполнение еще относительно мало), однако с ростом усиления ограничение уровня появляется все чаще и чаще и при уровне +30дБ начинает ограничиваться голос, что крайне заметно. Особенно заметны недостатки ограничения при значительных изменениях громкости за малое время - субъективно громкость начинает прыгать вверх и вниз. Если на фоне разговора (который при усилении +30дБ уже воспроизводится с максимальной громкостью) происходит громкий звук (который громче голоса в оригинале, например, звонок телефона) то уровень усиления уменьшается так, чтобы громкий звук не искажался, но при этом громкость разговора также резко падает. Когда громкий звук заканчивается разговор так же резко возвращается к предыдущей громкости:



6-png.400



Т.о. относительная громкость разных звуков воспроизводимых одновременно сохраняется, однако уровень усиления постоянно изменяется, что хорошо заметно и очень неприятно. Таким образом при больших уровнях усиления (20-30дБ и больше) ограничение тоже дает плохой результат.
При малых уровнях усиления дефекты ограничения сигнала практически незаметны, тогда как обрезание сигнала хорошо слышно практически всегда. Т.е. при прочих равных условиях ограничение дает более качественный результат. Фильтр всегда производит либо ограничение либо обрезание Поэтому рекомендуется всегда держать опцию ограничения включенной.

5. Нормализация.

Зададимся целью поднять громкость без потери качества вообще. Такое возможно? Да, если есть 'запас' динамического диапазона. Посмотрим снова на гистограммы с фильмами, фильм Cube (желтый график). На гистограмме видно, что громкость не поднимается выше -15дБ (возможно, что за весь фильм и есть один-два таких момента, однако, для целей данного рассмотрения будем считать, что громких звуков нет вообще). А так как громких звуков нет, то можно повысить громкость на 15дБ без потери качества!


7-png.401



Кроме увеличения громкости никаких изменений в сигнале не происходит. При этом гистограмма не изменяя формы подвинется вплотную к правому краю:


8-png.402




Таким образом, окажется, что в фильме теперь присутствует звук с максимальной громкостью. Но если мы будем увеличивать громкость дальше возникнут искажения (описанные выше). Такая форма сигнала, где присутствует звук максимальной громкости без внесенных при этом искажений называется нормальзованной, а процесс - нормализацией. Нормализация часто производится на стадии подготовки музыкальных записей и к нам звук попадает уже нормализованным (например, AudioCD). Однако для фильмов нормализации не производится. Почему?

Вспомним гистограммы для музыки и хаос с громкостью. Для музыки важно воспроизведение с максимальной громкостью, поскольку рассчитана на максимальную целевую аудиторию - CD-плееры, шум на улице, метро, дешевые наушники, хрипящие радиостанции, через которые тихие звуки ниже -40дБ просто не услышать (еще раз посмотрим на графики для музыки - минимальная громкость примерно равна -40дБ...)

Для DVD это не так. Они в первую очередь предназначены для качественных домашних кинотеатров. Воспроизводящая аппаратура должна быть откалибрована так, чтобы всегда воспроизводить диалоги с одной и той же абсолютной громкостью для любого фильма, будь то боевик с его потрясающими стену взрывами или мелодрама с тихим шуршанием травы. При этом воспроизводящая система всегда должна быть готова воспроизвести эти звуки без необходимости изменять уровень усиления вручную. Таким образом на первый план выступает не необходимость сделать запись максимально громкой, а необходимость жесткого опорного уровня, чтобы декодер имел возможность подстроить уровень усиления автоматически. Этот опорный уровень может быть любым (на самом деле это не важно, т.к. если есть опорный уровень то соответствующую коррекцию можно сделать всегда). Стандартом де-факто для DVD является уровень диалогов равный -27дБ. Поэтому даже если фильм громких звуков не содержит то на этапе создания диска проводить нормализацию не следует и динамический диапазон остается неизрасходованным.

6. Однопроходная нормализация.

Итак, для целей повышения громкости нормализация это хорошо. Но для того, чтобы провести нормализацию нужно знать максимальный уровень записи и чтобы его найти нужно просмотреть всю запись заранее. Однако это не всегда возможно да и просто неудобно. Есть метод нормализации, для которого не нужно предварительно просматривать всю запись - однопроходная нормализация. Суть метода состоит в том, что при просмотре фильма мы ищем максимум громкости постоянно. В начальный момент времени усиление максимально. В момент, когда возникает переполнение мы уменьшаем усиление:


9-png.403




Как видно на рисунке первый пик громкости срезается почти также, как и при обычном переполнении, однако продолжительность 'среза' значительно меньше (сравните с простым ограничением) и впоследствии переполнений не происходит. Таким образом усиление будет корректироваться при нахождении каждого нового максимума и в результате гистограмма автоматически сдвигается в сторону достижения максимальной громкости.

Как и все прочие, метод не лишен недостатков. Во-первых - метод не лишен искажений (хотя и малозаметных - нужно точно знать, что слушать, чтобы заметить работу однопроходной нормализации). Во-вторых громкость постоянно снижается во время просмотра фильма (хотя обычно основной процесс снижения громкости заканчивается на первых 10-15 минутах фильма, поэтому практически незаметен). И в-третьих, основная цель - повышение громкости, может быть не достигнута - все зависит от самого фильма (это касается и обычной нормализации). Вот пример гистограмм полученных в случае однопроходной нормализации для фильмов Cube (где нормализация возможна) и Fight Club (где нормализация не даст желаемого эффекта):



10-png.404



Как видно на этих гистограммах результат отличается разительно. Включение однопроходной нормализации дает существенный положительный эффект для фильма Cube - стало заметно громче (и подтвердилось наше предположение, что звуки громче -15дБ в фильме отсутствуют - сравните с графиком для нормализации). Но для фильма Fight Club увеличения громкости вообще не произошло - таким образом нужный эффект не был достигнут, но были внесены дополнительные искажения.

Необходимо еще раз отметить, что для работы однопроходной нормализации необходимо предварительное (начальное) усиление - без повышения уровня однопроходная нормализация просто бессмысленна.

7. Сжатие динамического диапазона.

Задумаемся над вопросом - а зачем нам поднимать громкость? Для того, чтобы слышать тихие звуки, которые не слышны в наших условиях (например, если нельзя слушать громко, если есть посторонние шумы в комнате и т.д.). А можно ли усилить тихие звуки, а громкие не трогать? Оказывается можно. Эта техника называется сжатием динамического диапазона (компрессия, Dynamic Range Compression, DRC). Для этого необходимо изменять текущую громкость постоянно - тихие звуки усиливать, громкие - нет. Самый простой закон изменения громкости - линейный, т.е. громкость изменяется по закону output_loudness = k * input_loudness, где k - коэффициент сжатия динамического диапазона:



При k = 1 никаких изменений не производится (выходная громкость равна входной). При k < 1 громкость будет увеличиваться а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k > 1 - громкость будет уменьшаться, а динамический диапазон - увеличиваться.
Посмотрим на графики громкости (k = 1/2: сжатие ДД в два раза):



Как видно в оригинале присутствовали как очень тихие звуки, на 30дБ ниже уровня диалогов, так и очень громкие - на 30дБ выше уровня диалогов. Т.о. динамический диапазон составлял 60дБ. После компрессии громкие звуки всего лишь на 15дБ выше, а тихие - на 15дБ ниже уровня диалогов (динамический диапазон теперь составляет 30дБ). Таким образом громкие звуки стали значительно тише, а тихие - значительно громче. При этом переполнения не происходит!
Теперь обратимся к гистограммам:


Как хорошо видно - при усилении до +30дБ форма гистограммы хорошо сохраняется, что означает, что громкие звуки остаются хорошо выраженными (не уходят в максимум и не обрезаются, как это происходит при простом усилении). При этом выделяются тихие звуки. Гистограмма это показывает плохо, однако разница очень заметна на слух. Недостаток метода - те же самые прыжки громкости. Однако механизм их возникновения отличается от скачков громкости возникающих при обрезании а их характер совершенно отличен - они проявляются в основном при очень сильном усилении тихих звуков (а не при обрезании громких, как при обычном усилении). Черезмерный уровень компрессии приводит к уплощению звуковой картины - все звуки стремятся к одинаковой громкости и невыразительности.
Сильное усиление тихих звуков может привести к тому, что станут слышимы шумы записи. Поэтому в фильтре применен немного модифицированный алгоритм, чтобы уровень шумов поднимался меньше:


Т.е. на уровне громкости -50дБ происходит перегиб передаточной функции и шумы будут усиливаться меньше (желтая линия). При отсутствии такого перегиба шумы будут значительно громче (серая линия). Такая простая модификация значительно снижает количество шумов даже при очень сильных уровнях сжатия (на рисунке - сжатие 1:5).

9. Микширование и громкость

Есть еще одна далеко неочевидная тонкость, которая может сильно повлиять на громкость при проигрывании многоканальных записей на стерео-системе (или в наушниках). Пусть мы имеем исходную запись в формате 5.1 а на выходе необходимо получить 2 канала. В каждый из выходных каналов микшируется один фронтальный канал, один тыловой, канал LFE, и часть центрального канала:
L' = L + 0.7*C + SL + LFE
R' = R + 0.7*C + SR + LFE
Допустим, что по всем входным каналам сразу запущен звук максимальной громкости (хотя это и не слишком вероятно). Тогда амплитуда в выходном канале будет превышать максимум в 3.7 раза (на 11дБ), т.е. произойдет сильнейшее переполнение. Чтобы переполнения не допустить формулы микширования должны быть переписаны следующим образом:
L' = (L + 0.7*C + SL + LFE) / 3.7
R' = (R + 0.7*C + SR + LFE) / 3.7
Это нормализованное микширование (не путать с нормализацией самой записи!) - переполнения гарантировано не происходит. Однако, смикшированный таким образом звук на целых 11дБ тише! Можно ли не проводить нормализацию? Можно. Однако в таком случае возможно переполнение и соответствующие искажения. Переполнение происходит только тогда, когда по всем входным каналам одновременно воспроизводится громкий звук. Это не характерно для фильмов (обычно тыловые каналы заметно тише фронтальных, да и канал LFE далеко не всегда задействован), но характерно для многоканальных музыкальных записей. Поэтому для фильмов можно оставить микширование ненормализованным, а для музыки нормализацию лучше включать.

10. Рекомендации.

Рекомендации по настройке сильно зависят от конкретных условий прослушивания и поставленной цели. Условно можно разделить все условия на следующие категории:

  1. Высококачественные домашние кинотеатры и хорошие условия прослушивания - отсутствуют посторонние шумы (уличный шум, соседи сверху, бегающие вокруг дети) и можно шуметь самим (отсутствие соседей). Для этой категории всю пост-обработку можно отключить (пресет standard).
  2. Хорошая акустика, но наличие внешнего шума. Можно применить небольшое усиление и небольшой уровень компрессии.
  3. Нельзя шуметь самим (ночь, соседи/дети) или посредственная акустика (дешевые наушники, слабые колонки). Необходимо сильный уровень компрессии плюс повышение уровня или однопроходная нормализация.
Наилучших результатов можно добиться только при комбинировании всех методик. В данном разделе будет рассматриваться только случай просмотра DVD-фильмов. Для других случаев (музыка, MPEG4-фильмы и пр.) характеристики звука слишком отличаются. Однако, освоив настройку фильтра для DVD-фильмов уже несложно будет разобраться и с другими случаями.

Усиление . Скачки громкости возникающие при переполнении незаметны только в случае, когда обрезаемый звук намного громче основного: в примере с телефоном звук телефона сравним по громкости со звуком голоса, однако если вместо телефона будет оглушительный взрыв звук голоса в любом случае будет неразличим. Поэтому ограничение самых громких звуков допустимо и практически незаметно. Очень громкими можно считать звуки от +15..+20дБ относительно уровня диалогов. Таким образом, при уровне диалогов равном -27дБ (де-факто для DVD) допустимый уровень усиления равен +7..+12дБ. В качестве еще одного ориентира можно обратиться к гистограммам усиления: усиление до +10дБ не сильно сказывается на форме гистограммы, в то время как при усиленнии +20дБ ограниченным оказывается очень большое количество звуков. Т.о. можно считать допустимым усиление до +10дБ. Его можно держать в этом положении практически всегда - на тихих фильмах это заметно поднимет громкость, а на громких - не будет сильно мешать. (Еще раз отметим, что рассуждения приведены только для случая просмотра DVD-фильмов - для музыки и большинства mpeg4-фильмов они неприменимы, т.к. характеристики гистограмм сильно отличаются).

Усиление также может применяться для ограничения громкости сигнала (например, для прослушивания ночью). При уровне диалогов равном -27дБ и усилении +17дБ уровень диалогов после усиления будет составлять -10дБ, а самого громкого звука, как всегда, 0дБ, что всего лишь на +10дБ выше уровня диалогов. Т.о. установив в фильтре усиление +17dB, и отрегулировав системную громкость так, чтобы диалоги воспроизводились с приемлемой абсолютной громкостью мы получим гарантию, что самые громкие звуки не будут превышать уровень диалогов больше, чем на 10дБ (хотя, конечно, в этом случае для громких звуков будет применено ограничение сигнала).
Компрессия. Границы применения компрессии определить намного сложнее, поскольку слышимость дефектов компрессии сильно зависит от акустической системы, условий прослушивания и самого слушателя. Если подойти к вопросу с точки зрения гистограмм то верхний предел применимости компрессии можно оценить как +20..+30дБ (см. гистограммы). В этом случае громкие звуки еще остаются выделенными по громкости от слабых. Таким образом уровень компрессии подбирается только на слух - до тех пор пока не будет достигнута необходимая громкость и дефекты будут оставаться незаметными.

Необходимо учитывать, что компрессия и усиление действуют одновременно, поэтому при уровне усиления +20дБ и компресии в два раза (+25дБ) реальный уровень усиления будет составлять +10дБ. Это нормально, поскольку потребность в усилении также уменьшается с увеличением компрессии.

Однопроходная нормализация. Применима также практически всегда. Для высококачественных систем с небольшим уровнем усиления позволит уменьшить количество переполнений, а в остальных случаях в комбинации с компрессией позволит добиться максимальной громкости опять же с минимумом искажений по переполнению. Начальный уровень усиления для нормализации выбирается исходя из целей - если большого усиления не нужно - устанавливается желательное, а для достижения максимальной громкости можно установить +20дБ.