Наиболее распространенные заблуждения на тему цифрового звука. Кодирование и обработка звуковой информации От какой величины зависит качество цифрового звука

Биты, герцы, shaped dithering...

Что скрывается за этими понятиями? При разработке стандарта аудио компакт дисков (CD Audio) были приняты значения 44 кГц, 16 бит и 2 канала (т.е. стерео). Почему именно столько? В чём причина такого выбора, а также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже до 32х битов...

Разберёмся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно, удобнее в смысле звука, но слишком неприятны для использования в цифровой технике (весьма спорное утверждение, если учесть, что многие АЦП имеют 11 или 12 разрядный цифровой выход - прим. сост.).

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно воспроизводимых громкостей - от максимальной амплитуды (0 децибел) до той наименьшей, которую позволяет передать разрешение, например, около минус 93 децибел для 16 битного аудио. Как ни странно, это сильно связано с уровнем шумов фонограммы. В принципе, для 16 битного аудио вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет затруднительно применять на практике из-за такого фундаментального понятия как шум дискретизации . Дело в том, что при взятии цифровых значений мы всё время ошибаемся, округляя реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее термин младший бит будет сокращаться до МБ). Эта ошибка даёт нам так называемый шум дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит постоянный характер и имеет максимальную амплитуду равную половине младшего разряда. Это можно рассматривать как случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или квантования (что является более точным названием, так как кодирование амплитуды называется квантованием, а дискретизацией называется процесс преобразования непрерывного сигнала в дискретную (импульсную) последовательность -- прим. сост.).

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах. Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое значение будет в два раза меньше, что соответствует потере уровня на 6 децибел (10 * log(2) = 6). Таким образом, обнуляя единички от старших разрядов к младшим, мы будем уменьшать уровень сигнала на шесть децибел. Понятно, что минимальный уровень сигнала (единичка в младшем разряде, а все остальные разряды - нули) (N-1)*6децибел, где N - разрядность отсчета (сэмпла). Для 16 разрядов получаем уровень самого слабого сигнала - 90 децибел.

Когда мы говорим "половина младшего разряда", мы имеем в виду не -90/2, а половину шага до следующего бита - то есть ещё на 3 децибела ниже, минус 93 децибел.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на уровне половины младшего разряда, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на минус 93 децибел. Она может передавать сигналы и тише, но шум всё равно остаётся на уровне -93 дБ. По этому признаку и определяется динамический диапазон цифрового звука - там, где соотношение сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем шумов минус 80 децибел - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80 дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и оцифровывать и передавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим совершенно никаких искажений или неточностей. Практика, как ни странно, почти полностью повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для аудио компакт дисков. Шум минус 93 децибел - довольно хорошее условие, которое почти точно соответствует условиям нашего восприятия: разница между болевым порогом (140 децибел) и обычным шумовым фоном в городе (30-50 децибел) составляет как раз около сотни децибел, и если учесть, что на уровне громкости, приносящем боль, музыку не слушают - что ещё несколько сужает диапазон - получается, что реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов квантования. Если мы можем расслышать уровень под минус 90 децибел в цифровой записи - мы услышим и воспримем шумы квантования, иначе - мы просто никогда не определим, оцифрованное это аудио или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе, человек может осмысленно слышать в диапазоне 120 децибел, и было бы неплохо сохранить весь этот диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering , можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно бесшумную передачу полезных сигналов дополнительно ещё на 10-20 дБ тише, чем -93 дБ - таким образом, динамический диапазон 16 битного звука для человека составляет около 110 децибел. Да и вообще - одновременно человек просто не может слышать звуки на 110 децибел тише, чем только что услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей действительности, поэтому одновременный диапазон нашего слуха составляет сравнительно мало - около 80 децибел. Поговорим о dithring-е подробнее после обсуждения частотных аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение (основанное на неверном понимании теоремы Котельникова-Найквиста), что при этом воспроизводятся все частоты вплоть до 22.05 кГц, однако это не совсем так. Однозначно можно сказать лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не так идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАП (цифро-аналогового преобразователя, отвечающего за получение звукового сигнала из цифровой последовательности).

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой) может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что на этом основано действие охранных устройств - несколько минут очень громкого звука высокой частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация, исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек акустически почти не определяет пространственное положение настолько низких звуков, поэтому в ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

С высокими частотами все немного хуже, по крайней мере точно сложнее . Почти вся суть усовершенствований и усложнений ЦАП и АЦП направлена как раз на более достоверную передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше.

Представим синусоидальный сигнал с частотой 14 кГц, оцифрованный с частотой дискретизации 44.1 кГц. На один период входной синусоиды приходится около трех точек (отсчетов), и чтобы восстановить исходную частоту в виде синусоиды, надо проявить некоторую фантазию. Процесс восстановления формы сигнала по отсчетам происходит и в ЦАП, этим занимается восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит целиком на совести восстанавливающей системы ЦАП.Таким образом, чем ближе частота сигнала к одной второй частоты дискретизации, тем сложнее восстановить форму сигнала.

Это и составляет основную проблему при воспроизведении высоких частот. Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот перекладывается на плечи цифровых фильтров, которые могут быть очень качественными. Настолько качественными, что в случае дорогих устройств проблема полностью снимается - обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600, обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц, сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных музыкальных применений, а если кому-то нужно большее качество - он найдет его в устройствах профессионального класса, которые не то чтобы сильно дороже - просто они сделаны с умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум . Как ни странно это звучит - для того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум. Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в 65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Пусть в исходном 32х битном звуке самый высокий уровень звука соответствует минус 110 децибел. Это с запасом гораздо тише динамического диапазона 16 битного звука, для которого самый слабый различимый звук соответствует уровню минус 90 децибел. Поэтому если просто округлить данные до 16 бит - мы получим полную цифровую тишину.

Добавим в сигнал "белый" шум (т.е. широкополосный и равномерный по всей полосе частот) с уровнем минус 90 децибел, примерно соответствующий по уровню шумам квантования. Теперь, если преобразовать эту сместь сигнала и "белого" шума в 16 бит (возможны только целые значения - 0, 1, -1, ...), то окажется, что какая-то часть сигнала осталась. Там, где исходный сигнал имел больший уровень, больше единиц, где меньший - нулей.

Для экспериментальной проверки изложенного выше способа можно воспользоваться звуковым редактором Cool Edit (или любым другим, поддерживающим 32 битный формат). Чтобы услышать то, что получится, следует усилить сигнал на 14 бит (на 78 дБ).

Результат - зашумленный 16 битный звук, содержащий исходный сигнал, который имел уровень минус 110 децибел. В принципе, это и есть стандартный способ расширения динамического диапазона, получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно бессмысленно - уровень шумов дискретизации так и остаётся на прежнем уровне, а передавать сигнал слабее шума - занятие не очень понятное с точки зрения логики... (Весьма ошибочное мнение, так как передача сигнала с уровнем, который меньше уровня шумов, - это один из фундаментальных методов кодирования данных. Прим. сост.)

Более сложный способ - shaped dithering , заключается в том, что раз мы всё равно не слышим высоких частот в очень тихих звуках, значит, следует основную мощность шума направить в эти частоты, при этом можно даже воспользоваться шумом более высокого уровня - я воспользуюсь уровнем в 4 младших разряда (два бита в 16 битном сигнале). Полученную смесь 32 битного сигнала и шума преобразуем в 16 битный сигнал, отфильтровываем верхние частоты (которые реально не воспринимаются человеком на слух) и повышаем уровень сигнала, чтобы можно было оценить результат.

Это уже вполне хорошая (для запредельно низкой громкости) передача звука, шумы примерно равняются по мощности самому звуку с исходным уровнем минус 110 децибел! Важное замечание: мы повысили реальные шумы дискретизации с половины младшего разряда (-93 дБ) до четырёх младших разрядов (-84 дБ), понизив слышимые шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось , но шум ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение реального (воспринимаемого человеком) отношения сигнал/шум.

(Иными словами, поскольку мощность шума как бы "размазана" по частотному диапазону, то не пропуская верхние частоты, мы отбираем у него часть мощности, в результате чего во временном представлении сигналов улучшается соотношение сигнал/шум. - Прим. сост.)

Практически это уже уровень шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для шума. 44.1 кГц звук даёт возможность размещать шум в неслышимых на тихой громкости частотах 10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой максимальной частотой дискретизации (включения/выключения этого единственного бита). С помощью процесса, сходного по сути с dithering-ом, называемым скорее широтно-импульсная модуляция, на нём игрался довольно качественный цифровой звук - из одного бита и высокой частоты дискретизации вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума выступала неспособность аппаратуры воспроизводить столь высокие частоты, как впрочем и наша неспособность их слышать. Лёгкий высокочастотный свист, однако - слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный) динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering - наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Следует отметить, что эта технология действует только на этапе подготовки материала к воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты обратно в 16 бит. Но если уровень шума фонограммы составляет более минус 60 децибел - можно без малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и поэтому совершенно безразличен.

Почему говорят, что 32-х битный звук качественнее 16 битного?
A1:	Ошибаются.
A2:	[Имеют в виду немного другое: при обработке или записи звука нужно использовать большее разрешение. Этим пользуются всегда . Но в звуке как в готовой продукции разрешение более 16 бит не требуется.]

Q:	Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?
A1:	Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь необходимый частотный диапазон.
A2:	[Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]

Q:	Почему всё же идет внедрение больших частот и битности?
A1:	Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2:	Многие процессы в этом случае происходят легче. Если, например, устройство собирается обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32 бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь воспроизводят звук это абсолютно безразлично.

Q:	32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A:	В общем случае - нет . Качество преобразования нисколько не зависит от битности. В AC"97 кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500, звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно никакого значения для воспроизведения 16 битного звука . Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит, чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ, что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от "лишних" 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме. Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.

Q:	А для записи?
A:	Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы, или просто быть достаточной для достижения желаемо низкого уровня шума . Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти полностью бессмысленнен , так как младший десяток бит будут просто непрерывно шуметь - настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.

Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD, лучшего качества - не стоит. 16 бит / 44 кГц, доведённые до предела с помощью shaped dithering, вполне способны полностью передать интересующую нас информацию, если дело не идет о процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько раз больших аудио данных?..

Чем физически отличается звук на виниловой пластинке от CD, и почему значительное количесство аудиофилов считают, что поледний безусловно проигрывает. В статье «Откуда берется качество винила?» я попытался докопаться до причин различий цифрового звука CD с частотой дискретизации 44 кГц и виниловых пластинок. Говоря иными словами, как изменяется форма волны или осциллограмма при преобразовании звука в цифру и обратно .

Сегодня нам предстоит обсудить: стоит ли вообще переходить на цифровые источники с высокими частотами дискретизации (96, 192 и так далее кГц) когда у нас уже имеется очень популярный формат CD 44,1 кГц, или вся эта шумиха - лишь ловкие маркетинговые ходы производителей аудиотехники, пытающихся постоянно наращивать свои объемы продаж.

Но не все свои мрачные тайны вносимых искажений нам выдала коварная Цифра. Придется посмотреть еще и на частотный спектр сигнала.
В одной из предыдущих статей я говорил о том, что любой сигнал можно представить в виде суммы синусоид . Но тут есть два момента:
1. Периодический или циклически повторяющийся сигнал любой формы можно представить, как сумму синусоид (гармоник) с разными фазами (говоря грубо, временными задержками) и частотами, кратными (умножить на 2, 3 и так далее) основной частоте этого сигнала.. Эта частота зависит от длительности цикла повтора.

2. Непериодический или неповторяющийся сигнал (а это любая фонограмма) имеет бесконечный сплошной спектр (бесконечное количество синусоид «прижавшихся друг», уровень которых, в общем случае, спадает с ростом частоты).

Приняв за истину то, что среднестатистический (повторяю: среднестатистический) человек не слышит выше 20 кГц , мы уверенной рукой отбрасываем все синусоиды, которые имеют частоту выше этой цифры (ультразвук), и считаем, что наше восприятие звука от этого ничего не теряет.

Но это - только полдела. Предположим, что мы действительно не слышим ультразвук выше 20 кГц, но, не смотря на это, он, все-таки, играет свою губительную роль в черном деле искажения исходного (на входе аудиокарты) звука при превращении последнего в цифру . И сейчас мы посмотрим, как это происходит.

Наш исходный сигнал имеет непериодическую форму (то есть форма его волны никогда не повторяется) и, следовательно, у него - бесконечный сплошной спектр . Все синусоиды, находящиеся выше 20 кГц мы назвали ультразвуком . Причем под ультразвуком на входе звуковой карты надо понимать не только сигнал, порожденный акустической волной, который практически полностью теряет все свои ультразвуковые составляющие прямо в микрофоне или звукоснимателе гитары, но к ультразвуку добавляются разнообразные наводки на высоких частотах , которые успели примешаться к исходному сигналу при прохождении им электрических цепей усилителей, АЦП и пр. (вот хотя бы помехи от Вашего компьютера).

Что происходит теперь при аналогово-цифровом преобразовании сигнала со спектром от 0 Гц до бесконечности без принятия специальных мер? Все ультразвуковые синусоиды с частотами выше половины частоты дискретизации попадают (смещаются) в слышимый диапазон .

На жаргоне цифровой обработки сигналов это называется «заворотом» спектра. И вместо чистого звука от 0 до 22 кГц (половины частоты дискретизации) мы имеем кашу из чистого звука и искаженного ультразвука (вся часть спектра, расположенная выше 22 кГц). Ультразвук смещается по частоте в область ниже половины частоты дискретизации и спектр его зеркально разворачивается: верхние частоты оказываются внизу, а нижние - вверху.

Как пример можете себе представить, дуэт баритона и тенора, которые сначала оба поют в тональности ля. А теперь представьте, что вы услышите, если бас продолжает петь в тональности ля, а тенор начинает петь в тональности соль диез, да еще и слова поет задом наперед.

Как борются с этим неприятным эффектом и имеет ли успех тяжелая борьба с техникой?

Перед тем, как оцифровать сигнал, с помощью аналогового фильтра низких частот (который пропускает через себя только низкие частоты) удаляют все ультразвуковые составляющие . И только после этого производят преобразование в цифру.

Однако, есть одно НО. Идеальных фильтров - нет и в ближайшее время, похоже, не будет. А тот спектр, который получается после фильтрации, все равно содержит ультразвуковые составляющие, мощность которых (уровни синусоид на соответствующих частотах) плавно спадает до 24-30 кГц (зависит от качества фильтра и цены звуковой карты). Иными словами, фильтр все равно полностью не искореняет ультразвук.

Потом все эти никому не нужные составляющие с частотами выше 22 кГц, нагло просочившиеся через фильтр, сохраняются в цифровой записи и становятся слышны нам, цинично накладываясь на наш чистый непорочный звук от 0 до 22 кГц.

Как же нам поступить в этом случае? Хорошая новость: при качестве имеющихся у нас фильтров, ультразвуковыми составляющими выше 30-40 кГц на его выходе уже можно пренебречь в виду их малой мощности.

У фильтра низких частот есть такой параметр, как частота среза . Это - максимальная частота, выше которой фильтр, теоретически, не пропускает звук. Но на самом деле эта граница весьма и весьма условна , так, как она устанавливается на той частоте, где ослабление проходящего через фильтр сигнала достигает определенного порога. Частотная характеристика фильтра низких частот (зависимость ослабления сигнала от частоты) имеет весьма плавную форму , постепенно все более и более ослабляя сигнал с ростом частоты.

Частотная характеристика фильтра, как снежная горка - если бы у нее имелась резкая граница (на частоте среза), то горка бы заканчивалась обрывом и санки в конце ее резко бы клевали носом в землю, останавливаясь почти мгновенно. А наша горка (как и самый лучший в мире аналоговый фильтр) - все равно плавная и мы также плавно съезжаем все дальше и дальше в область ультразвука.

Чем выше входная частота синусоиды от частоты среза фильтра, тем хуже он пропускает ее. Поэтому у частот 30-40 кГц суммарная мощность (сумма мощностей всех синусоид в этом диапазоне частот) значительно меньше суммарной мощности синусоид в диапазоне 22-30 кГц .

По этой причине, если частоты 30-40 кГц и сместятся в область слышимых частот, то будут менее заметны, чем те которые лежат от 22 (половина частоты дискретизации CD) до 30 кГц. И с ростом частоты фильтр работает все лучше и лучше.

Поэтому нам остается только увеличить частоту дискретизации таким образом, чтобы суммарная мощность ультразвуковых частот, лежащих выше половины частоты дискретизации, и пролезших через фильтр, была ничтожно мала.

Но теперь следующий вопрос: почему, если все так хорошо с 96 килогерцами, нам нужно еще лезть на частоты дискретизации 192 и выше килогерц?

Вспомним, что в статье Откуда берется качество винила? упоминалось о «ступеньках», возникающих при оцифровке сигнала за счет того, что сигнал измеряется с разрывами во времени и само значение измерений - тоже ступенчато. Кроме того в цифрово-аналоговых и аналогово-цифровых преобразователях наблюдается такое явление, как «дрожание» фазы (джиттер). В чем оно проявляется? А в том, что измерения делаются не строго равномерно, а с некоторыми задержками или опережениями во времени.

Причиной джиттера прежде всего становится нестабильность тактирующего генератора АЦП и ЦАП звуковой карты. Этот генератор задает моменты измерений. Также к джиттеру приводят помехи (наводки).

Если бы АЦП при записи и ЦАП при воспроизведении имели бы абсолютно одинаковый джиттер (расстояния между измерениями были бы одинаковыми при записи и при воспроизведении), то не было бы никакой беды . Но временное положение отсчета (фаза) все время дрожит и отклоняется, как ему взбредет в голову. Это, примерно, как петь, сидя на телеге едущей по булыжной мостовой или наливать в рюмку дорогой коньяк трясущимися руками.

Так вот, ступеньки и джиттер (хотя с ними тоже можно бороться) порождают шумы (искажения сигнала при оцифровке). Чем выше разрядность отсчета АЦП и ЦАП (16, 24, 32 и так далее бит), тем ближе восстановленное значение к оригиналу. Чем выше частота дискретизации (меньше расстояние между измерениями), тем больше измерений приходится на каждый маленький участочек сигнала. За счет большого количества измерений, в среднем он точнее (с меньшими шумами) запоминается и восстанавливается. Это примерно, как если Вы стреляете в мишень из пистолета, то в десятку можете попасть 2 патронами из 6. А если в Ваших руках автомат, то, промахнувшись пятьюдесятью пулями, попадете в цель двадцатью. Если кто и выживет от двух пуль, то от 20 - точно ноги протянет. Таким образом, и 192 кГц попадает в яблочко несколько лучше, чем 96, а тем более - 44.

Производители поговаривают уже о частотах 384 и выше кГц. Но послушать и оценить такой формат пока еще не на чем.

Резюме:

Итак нужен ли переход на высокие частоты дискретизации или нет? Вопрос неоднозначный. Повышение качества звучания - вопрос комплексный, в котором задействованна и частота дискретизации, и качество фильтра низких частот, и стабильность опорного генератора частоты дискретизации, и точность измерения / восстановления уровня АЦП / ЦАП. Механическое повышение частоты дискретизации не даст выигрыша при отсутствии работы по улучшению в остальных направлениях. И может оказаться, что аналоговый выход профессиональной звуковой карты с максимальной частотой дискретизации 48 кГц звучит лучше, чем у ширпотребовской встроенной "звуковухи" с частотой дискретизации 192 кГц.

Аудиодиски постепенно уходят в историю. Нет, конечно, они еще продаются в магазинах, но слушают и покупают их все меньше и меньше. Многие просто не видят в этом смысла, ведь даже если рассматривать легальный способ получения аудиофайлов, то одна песня в формате MP3 в музыкальном Интернет-магазине стоит гораздо дешевле одной песни, записанной на аудиодиск. Возникает резонный вопрос: зачем платить больше?

Конечно же, качество звука аудио CD гораздо выше, чем любого аудиофайла, где данные сжимаются, однако, для поразительного большинства людей эта разница некритична. Да что там! В наши дни даже самые большие меломаны задумываются о том, чтобы перевести свою коллекцию аудио CD в аудиофайлы, ведь вполне может наступить момент, когда спрос на диски будет настолько низкий, что проигрыватели аудио CD просто перестанут выпускать.

В этой статье мы рассмотрим некоторые программы для снятия данных с аудио CD и преобразования их в MP3 и другие форматы. Но сначала немного теории.

Компрессия звука и популярные аудиоформаты

Компрессия данных подразумевает анализ и упрощение записываемой информации, в результате которых на лазерный носитель можно записать больше аудиоданных, чем это возможно при записи аудио CD.

Чтобы было понятнее что такое компрессия данных, представьте себе, что вы должны пересказать содержимое листка бумаги на котором тысячу раз написана буква А своему другу по телефону. Вы можете просто тысячу раз произнести вслух «А» и ваш собеседник будет в курсе того, что же записано на листе. С другой стороны, вы можете предварительно подсчитать, сколько раз написана эта буква, после чего сообщить товарищу, что на листке тысяча раз записана буква «А». Результат будет тем же самым - ваш друг узнает содержание листа бумаги, но времени на передачу информации во втором случае у вас уйдет намного меньше. Иными словами вы провели компрессию данных, проанализировав сколько раз повторяется буква.

Сжатие цифрового аудио происходит приблизительно по такому же сценарию. Однако компрессия аудио данных имеет ряд особенностей. Так, например, для того чтобы вы узнали знакомую мелодию, достаточно проиграть ее в худшем качестве. При этом следует иметь в виду, что многие вкладывают в понятие «качественный звук» совершенно разные вещи. Так, например, если музыканту музыкальная запись режет слух из-за того, что щипок струны не был в строго определенной тональности, то простой обыватель может мириться и с гораздо более серьезными недостатками.

Эта особенность человеческого восприятия звука послужила толчком к созданию новых аудиоформатов, которые используют модель сжатия аудиоданных с потерей качества. Ухудшение звучания для большинства меломанов некритично, а в некоторых случаях, качеством и вовсе неважно, например, в паузах тишины, когда аудиоданные не представляют никакой ценности или в тех частотах, которые не воспринимает человеческое ухо.

Существует огромное количество форматов записи цифрового аудио. Их отличие в том, что они используют разные алгоритмы сжатия. Самые популярные на сегодняшний день форматы - это:

WMA (Windows Media Audio) - формат, разрабатываемый корпорацией Microsoft. Этот формат был создан на основе популярного в прошлом формата VQF, который сегодня уже почти забыт.
OGG Vorbis - бесплатный формат с открытыми кодами. В последнее время стал популярен настолько, что поддерживается производителями некоторых портативных проигрывателей.
MP3 (MPEG Layer III) - самый популярный формат, удерживающий лидирующие позиции уже в течение многих лет.

Особенности формата MP3

Привычное название MP3 - это сокращение от MPEG Layer III. MPEG, в свою очередь, расшифровывается как Moving Picture Coding Experts Group (Группа экспертов по кодированию движущихся изображений). Формат MP3 был разработан немецким институтом Фраунгофера в начале 90-х годов прошлого столетия. По-настоящему популярным формат стал после того, как им заинтересовалась компания Thomson.

Благодаря алгоритму сжатия, который использует формат MP3, аудиоданные можно сжимать в десять-двенадцать раз без заметных потерь в качестве. Высокая степень сжатия достигается благодаря тому, что MP3 использует особенности человеческого слуха. Человеческое ухо воспринимает звук в пределах диапазона от 20 Гц до 20 КГц, поэтому все звуки, которые не входят в этот диапазон, просто отбрасываются. Это значительно уменьшает объем данных.

Еще одна особенность MP3, благодаря которой можно получить аудиофайл меньшего размера, связана со стереозвуком и опять же, с особенностями человеческого слуха. Когда мы слушаем музыкальную композицию, записанную в стереорежиме, мы слышим основную разницу на средних частотах. Благодаря этой особенности к кодированию звука можно применить алгоритм сжатия, который бы кодировал отдельно для каждого канала только тот спектр частот, в котором наиболее слышна разница между каналами. А звук на тех частотах стереоканалов, на которых разница менее заметна, совмещается и кодируется в монорежиме. Такой совмещенный режим кодирования стереосигнала называется Joint Stereo.

Характеристики цифрового звука

При сжатии аудиоданных возникает необходимость управлять качеством оцифрованного звука. Так, например, если нужно оцифровать аудиокнигу, то высокое качество в этом случае не нужно. Главное - чтобы можно было разобрать слова. Если же оцифровывается музыкальное произведение, качество имеет большое значение.
Независимо от того, какой алгоритм сжатия звука используется, параметры, характеризующие качество звучания, одни и те же.

Одна из главных характеристик цифрового звука - это битрейт . Битрейтом называют скорость кодирования/раскодирования цифрового аудиопотока. Чем выше его значение, тем лучше качество звука и больше - размер файла. Нужно сказать, что битрейт является относительной величиной. Файлы, созданные с использованием разных алгоритмов сжатия и имеющие одинаковый битрейт, будут отличаться по качеству.

Кодирование можно производить с постоянным или переменным значением битрейта. Метод кодирования с переменным битрейтом дает возможность изменять качество аудиосигнала "на лету", то есть, в процессе проигрывания. Если программа определяет, что имеет дело со сложным звуковым потоком (например, звуками симфонического оркестра), качество возрастает, если же звук простой (к примеру, когда между композициями воцаряется пауза), качество автоматически ухудшается. Благодаря этому размер файла уменьшается.

Кодирование звука происходит с определенной частотой дискретизации . В процессе обработки аудиосигнал разделяется на большое количество частей (сэмплов), каждая из которых обрабатывается алгоритмом сжатия. Точность обработки сигнала и определяется частотой дискретизации, которая измеряется в килогерцах. В зависимости от количества сэмплов, приходящихся на единицу времени, различают такую характеристику звука, как разрядность. Нетрудно догадаться, что чем больше сэмплов обрабатывается, тем выше качество звука.

К звуковому сигналу, поступающему на аналогово-цифровой преобразователь (звуковую карту) применяется двойная дискретизация – по амплитуде и по времени.
Для математического описания формы сигнала используется теорема Котельникова, согласно которой любой непрерывный процесс с ограниченным спектром может быть представлен дискретной последовательностью его мгновенных значений. Частота такой последовательности должна как минимум вдвое превышать частоту наивысшей гармоники процесса. Частота, с которой берется выборка мгновенных значений (отсчетов) сигнала, называется частотой дискретизации.

Любое отклонение формы сигнала, поступающего на вход звуковой карты, от правильной формы синусоиды приводит к выходу спектра за пределы собственной частоты сигнала. Поэтому при дискретизации звукового сигнала по времени ограничиваются частоты входящего импульса ниже одной второй от частоты дискретизации, или берется спектр с избытком частоты. Вследствие того, что человеческое ухо может различать звуковые колебания с частотой до 20 кГц, получается, что частота дискретизации любого звукового сигнала должна быть не менее 40 кГц. Поэтому на практике можно встретить звуковые устройства с частотами дискретизации 44,1 кГц, 48 кГц и 96 кГц.

Для амплитудной дискретизации звука, например, на лазерном диске используется уровень квантования 2 в шестнадцатой степени (65536). Представление чисел от 0 до 2^16 необходимо 16 бит информации, поэтому удобнее использовать термин 16-битной разрядности сигнала. Разрядность звука зависит от динамического диапазона входного сигнала и допустимых шумов квантования.

Квантование по амплитуде и времени является причиной звуковых искажений по всей полосе частот, к которым прибавляются шумы и помехи звукового тракта аудиокарты.

Еще одна важная характеристика цифрового звука - это стереозвучание. Поэтому если звук записывается не в моно, а в стереоформате, количество аудиоданных удваивается, и, соответственно, увеличивается размер выходного файла.

Копирование музыки с аудиодисков при помощи Windows Media Player

Возможность копирования аудиоданных уже встроена в WindowsXP. Для того чтобы скопировать аудиоданные с помощью Windows Media Player, вставьте в привод для чтения дисков аудиодиск, запустите проигрыватель и нажмите кнопку "Копировать с диска" в верхней части окна программы. В окне проигрывателя отобразится содержимое вашего аудионосителя в виде отдельных треков. Напротив каждого из них установлен флажок. Это означает, что будут скопированы все композиции. Если вы не хотите копировать ту или иную песню, снимите флажок напротив ее названия.

По умолчанию в настройках программы установлено не очень высокое качество сжатия аудиоданных, поэтому если вы - поклонник качественного звука, необходимо изменить битрейт создаваемого файла. Для этого выполните команду "Сервис>Параметры" и в открывшемся окне перейдите на вкладку "Koпиpoвaние музыки с компакт-диска". Величина битрейта устанавливается ползунком "Kaчecтвo звука", причем крайнему правому положению соответствует максимальный размер выходного файла и соответственно наилучшее звучание.

Одна из особенностей стандартного проигрывателя - возможность защиты аудиофайлов от прослушивания на другом компьютере. Если вы желаете, чтобы созданные программой файлы WMA можно было проиграть только на этом компьютере, проверьте, установлен ли флажок напротив опции "Музыка с защитой от копирования".

Для начала копирования нажмите кнопку "Копировать музыку с компакт-диска" в верхней части окна программы. На экране появится окно, в котором вы сможете включить или отключить защиту содержимого, установив соответствующий флажок. Перед началом копирования вы также сможете изменить настройки копирования, если это необходимо.

За процессом сжатия можно наблюдать в столбце "Cocтoяниe кoпиpoвaния с компакт-диска". Как только операция по переносу трека на жесткий диск будет завершена, напротив копируемой композиции появится надпись "Скопированы в библиотеку".

Несмотря на кажущееся удобство рассмотренного способа копирования аудиоданных, во многих случаях использовать его неудобно. Во-первых, формат WMA поддерживается далеко не всеми портативными MP3-устройствами, во-вторых, на кодирование в этот формат уходит больше времени, если сравнивать с другими форматами. Наконец, при использовании Windows Media Player нет возможности гибко управлять настройками сжатия.

Одним словом, если вы приобрели MP3 плеер и планируете регулярно пополнять свою цифровую фонотеку, копируя данные с аудиодисков, необходимо позаботиться о том, чтобы под рукой был качественный и многофункциональный звуковой кодер. Некоторые из таких программ мы рассмотрим во второй части статьи.

Основными параметрами, влияющими на качество цифровой звукозаписи, являются:

§ Разрядность АЦП и ЦАП.

§ Частота дискретизации АЦП и ЦАП.

§ Джиттер АЦП и ЦАП

§ Передискретизация

Также немаловажными остаются параметры аналогового тракта цифровых устройств звукозаписи и звуковоспроизведения:

§ Отношение сигнал/шум

§ Коэффициент нелинейных искажений

§ Интермодуляционные искажения

§ Неравномерность амплитудно-частотной характеристики

§ Взаимопроникновение каналов

§ Динамический диапазон

Техника цифровой звукозаписи

Запись цифрового звука в настоящее время осуществляется на студиях звукозаписи, под управлением персональных компьютеров и другой дорогостоящей и качественной аппаратуры. Также довольно широко развито понятие «домашней студии», в которой применяется профессиональное и полупрофессиональное звукозаписывающее оборудование, позволяющее создавать качественные записи в домашних условиях.

Применяются звуковые карты в составе компьютеров, которые производят обработку в своих АЦП и ЦАП - чаще всего в 24 битах и 96 кГц, дальнейшее повышение битности и частоты дискретизации, практически не увеличивает качества записи.

Существует целый класс компьютерных программ - звуковых редакторов, которые позволяют, работать со звуком:

§ записывать входящий звуковой поток

§ создавать (генерировать) звук

§ изменять существующую запись (добавлять сэмплы, изменять тембр, скорость звука, вырезать части и т.п.)

§ перезаписывать из одного формата в другой

§ конвертировать конвертировать разные аудиокодеки

Некоторые простые программы, позволяют осуществлять только конвертацию форматов и кодеков.

Разновидности цифровых аудиоформатов

Существуют различные понятия звукового формата.

Формат представления звуковых данных в цифровом виде зависит от способа квантования цифро-аналоговым преобразователем (ЦАП). В звукотехнике в настоящее время наиболее распространены два вида квантования:

§ импульсно-кодовая модуляция

§ сигма-дельта-модуляция

Зачастую разрядность квантования и частоту дискретизации указывают для различных звуковых устройств записи и воспроизведения как формат представления цифрового звука (24 бита/192 кГц; 16 бит/48 кГц).

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

§ аудиоформаты без сжатия, такие как WAV, AIFF

§ аудиоформаты со сжатием без потерь (APE, FLAC)

§ аудиоформаты, с применением сжатия с потерями (mp3, ogg)

Особняком стоят модульные музыкальные форматы файлов. Созданные синтетически или из сэмплов заранее записанных живых инструментов, они, в основном, служат для создания современной электронной музыки (MOD). Также сюда можно отнести формат MIDI, который не является звукозаписью, но при этом с помощью секвенсора позволяет записывать и воспроизводить музыку, используя определенный набор команд в текстовом виде.

Форматы носителей цифрового звука применяют как для массового распространения звуковых записей (CD, SACD), так и в профессиональной звукозаписи (DAT, минидиск).

Для систем пространственного звучания также можно выделить форматы звука, в основном являющиеся звуковым многоканальным сопровождением к кинофильмам. Такие системы имеют целые семейства форматов от двух крупных конкурирующих компаний Digital Theater Systems Inc. - DTS и Dolby Laboratories Inc. - Dolby Digital.

Также форматом называют количество каналов в системах многоканального звука (5.1; 7.1). Изначально такая система была разработана для кинотеатров, но впоследствии была расширена Программный кодек

Аудиокодек на программном уровне

§ G.723.1 - один из базовых кодеков для приложений IP-телефонии

§ G.729 - патентованный узкополосный кодек, который применяется для цифрового представления речи

§ Internet Low Bitrate Codec (iLBC) - популярный свободный кодек для IP-телефонии (в частности, для Skype и Google Talk)

Аудиокодек (англ. Audio codec ; аудио кодер/декодер) - компьютерная программа или аппаратное средство, предназначенное для кодирования или декодирования аудиоданных.

Программный кодек

Аудиокодек на программном уровне является специализированной компьютерной программой, кодеком, который сжимает (производит компрессию) или разжимает (производит декомпрессию) цифровые звуковые данные в соответствии с файловым звуковым форматом или потоковым звуковым форматом. Задача аудиокодека как компрессора заключается в предоставлении аудиосигнала с заданным качеством/точностью и минимально возможным размером. Благодаря сжатию уменьшается объём пространства, требуемого для хранения аудиоданных, а также возможно снизить полосу пропускания канала, по которому передаются аудиоданные. Большинство аудиокодеков осуществлены как программные библиотеки, которые взаимодействуют с одним или несколькими аудиоплеерами, такими как QuickTime Player, XMMS, Winamp, VLC media player, MPlayer или Windows Media Player.

Популярные программные аудиокодеки по областям применения:

§ MPEG-1 Layer III (MP3) - проприетарный кодек аудиозаписей (музыка, аудиокниги и т. п.) для компьютерной техники и цифровых проигрывателей

§ Ogg Vorbis (OGG) - второй по популярности формат, широко используется в компьютерных играх и в файлообменных сетях для передачи музыки

§ GSM-FR - первый цифровой стандарт кодирования речи, использованный в телефонах GSM

§ Adaptive multi rate (AMR) - запись человеческого голоса в мобильных телефонах и других мобильных устройствах

Развенчание популярных мифов о цифровом звуке.

2017-10-01T15:27

Audiophile"s Software

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука .

Также многие затронутые ниже моменты освещены в моей публикации «Ещё раз о печальной правде: откуда на самом деле берётся хорошее звучание?» .

Чем больше битрейт, тем качественнее трек

Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) × 16 (бит на каждый семпл) × 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмём и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере какой-либо информации), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

Сюда ещё кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

Теперь поговорим о lossy сжатии (с потерями). Прежде всего надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

Кроме того, существует такое понятие, как апконверт . Т. е., можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

И даже более. Есть еще один нюанс. Если, скажем, битрейт аудиопотока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное качество, форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.

Кодеки lossy (MP3 и прочие) способны справитьcя c современной электронной музыкой, но не способны качественно закодировать классическую (академическую), живую, инструментальную музыку

«Ирония судьбы» здесь в том, что на самом деле всё с точностью до наоборот. Как известно, академическая музыка в подавляющем большинстве случаев следует мелодическим и гармоническим принципам, а также инструментальному составу. С математической точки зрения это обуславливает относительно простой гармонический состав музыки. Так преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть - каждая третья, и т. п. Кроме того, наличие фиксированных соотношений частот, обусловленных использованием равномерно темперированного строя, также упрощает спектральный состав классической музыки. Живой инструментальный состав классики обуславливает отсутствие в ней шумов, характерных для электронной музыки, искажений, резких скачков амплитуды, а также отсутствие избытка высокочастотных составляющих.

Перечисленные выше факторы приводят к тому, что классическая музыка намного легче сжимается, прежде всего, чисто математически. Если вы помните, математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного - чем точнее они совпали, тем меньше битов нужно для кодирования). В данном случае относительно простой спектральный состав и гармоничность обуславливают высокую избыточность, устранение которой даёт значительную степень компрессии, а малое количество всплесков и шумовых компонентов (являющихся случайными и непредсказуемыми сигналами) обуславливает хорошую математическую предсказуемость подавляющей части информации. И это я уже не говорю об относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется. В итоге мы можем без потерь сжать, например, некоторую сольную инструментальную музыку до битрейтов ниже 320 кбит/с (кодеры TAK и OFR на такое вполне способны).

Так вот, во-первых, дело в том, что математическое сжатие, лежащее в основе lossless кодирования, является также и одним из этапов lossy кодирования (читайте Понятно об MP3 кодировании). А во-вторых, т. к. в lossy используется преобразование Фурье (разложение сигнала на гармоники), то простота спектрального состава даже вдвойне облегчает кодеру работу. В итоге, сравнивая оригинальный и закодированный семпл классической музыки в слепом тесте, мы с удивлением обнаруживаем, что никаких отличий найти не можем, даже при относительно низком битрейте. И самое смешное - что когда мы начинаем совсем понижать битрейт кодирования, первое, что обнаруживает отличия - фоновые шумы в записи.

Что же касается электронной музыки - с ней кодерам приходится очень нелегко: шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (какими-нибудь пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодеру далеко не всегда легко оценить... Добавьте еще к этому высокий уровень ВЧ составляющих - и получите большое количество киллер-семплов, с которыми на средне-низких битрейтах не справляются даже наиболее продвинутые кодеры, как ни странно, именно среди электронной музыки.

Также забавляют мнения «опытных слухачей» и музыкантов, которые при полном непонимании принципов lossy кодирования начинают утверждать, что они слышат, как инструменты в музыке после кодирования начинают фальшивить, частоты плавают и т. п. Это, возможно, ещё было бы справедливо для допотопных кассетных плееров с детонацией, но в цифровом аудио всё точно: частотная составляющая либо остаётся, либо отбрасывается, смещать тональность тут попросту нет надобности. Более того: наличие у человека музыкального слуха совершенно не означает наличие у него хорошего частотного слуха (например, способности воспринимать частоты >16 кГц, которая с возрастом сходит на нет) и отнюдь не облегчает ему задачу поиска артефактов lossy кодирования, т. к. искажения эти имеют характер очень специфический и требуют опыта слепого сравнения именно lossy аудио - надо знать, на чём и где искать.

DVD-Audio звучит лучше, чем Audio CD (24 бита против 16-ти, 96 кГц против 44.1 и т. п.)

К сожалению, люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра на объективное качество.

Рассмотрим для начала разрядность. Этот параметр отвечает не за что иное, как за динамический диапазон, т. е., за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS (FS - full scale), а минимальный - ограничен уровнем шумов, т. е., фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20 × log 10 2 16 , что равняется 96.33 вБ. При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных, человеческой физиологией), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

Лучше всего данная тема раскрыта в статье Загрузки в формате 24/192 - почему они не имеют смысла .

Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI (графический интерфейс пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

Разные версии драйвера звучат по-разному

В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение, необходимое для эффективного взаимодействия устройства с операционной системой, также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового устройства Windows, сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (в большинстве случаев) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается такое крайне редко . С другой стороны, различия между драйверами могут быть в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже отнюдь не часто. К тому же, для достижения наивысшего качества эффекты и любую обработку драйвером всё равно следует исключать.

Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.

Лицензионные Audio CD звучат лучше, чем их копии

Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается .

Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.

Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е., по сути всё, что можно определить по спектрограмме, - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

Это же относится и к оценке качества кодирования путём анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

И возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.

Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

Также среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.

Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой не что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения: кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий промежуточное преобразование в PCM.

Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.