Uma das coisas interessantes do áudio é que muitas vezes o bom-senso acaba contrariando os fatos. Talvez o maior exemplo seja o uso de sampling rates acima de 48kHz. Pra começar, esse tipo de utilização é vulgarmente (e comercialmente) chamado de Áudio de Alta Definição, o que em si já está equivocado.
A essa altura todo mundo já sabe que a sampling rate determina a maior frequência que pode existir dentro de uma sessão de DAW. Se a gente grava em 48kHz, a maior frequência possível é 24kHz. Se grava em 96kHz, a maior frequência possível é 48kHz.
Além disso, sabemos que para todos os efeitos, o ser humano não consegue ouvir acima de 24kHz (por mais que haja especulações tentando dizer o contrário). Mesmo assim, pode fazer sentido se optar por uma sampling rate maior, porque se o sistema não comprometer seu desempenho, registrar frequências acima de 24kHz pelo menos "mal, não faz".
Só que não é bem assim. Vamos conhecer três características que vão nos afetar nesses casos:
1) Distorção Harmônica
Quando se passa um áudio por um plugin ou equipamento que possui resposta não-linear, como um compressor, um saturador, um clipper, ou mesmo simulações de amplificadores reais, uma das coisas que ocorre é a distorção harmônica.
A forma de onda que entrou é alterada, e por isso o seu espectro de frequências muda, ganhando harmônicos.
Veja a figura onde passamos uma senoide de 1kHz por um simulador de pedal de overdrive:
Nós entramos apenas com 1kHz e na saída aparecem 2kHz, 3kHz, etc, que são os harmônicos gerados pela alteração na forma de onda.
Isso é o que se chama distorção harmônica: porque é uma alteração na forma da onda de entrada e porque o que aparecem são harmônicos.
E o que os harmônicos têm de especial? Eles são sempre múltiplos inteiros da frequência original. Isso confere uma certa sonoridade "agradável" ou "aceitável" a essa distorção, já que a própria informação musical toma por base os harmônicos para funcionar.
2) Aliasing
Como se pode observar, a distorção harmônica sempre acontece pra cima, mas por outro lado, por causa do limite de Nyquist, a gente sabe que tem uma frequência máxima possível para cada sampling rate.
Vamos ver nesse mesmo caso aí de cima o que acontece quando a gente sobe a frequência da senoide de entrada de 1kHz para 10kHz. A nossa sampling rate no caso é 48kHz.
Os harmônicos deveriam aparecer em 20kHz, 30kHz, 40kHz etc, mas como não é possível ter frequências acima de 24kHz, eles se refletem pra baixo, e aí aparecem em 18kHz, 12kHz, 8kHz, 2kHz etc.
O problema é que agora eles não guardam uma relação harmônica ("musical") com a frequência de entrada, e tendem a soar menos amistosos. Esse problema que acontece porque nós estamos usando um processador (plugin de overdrive) que gera harmônicos acima do limite de Nyquist é chamado Aliasing.
Normalmente o aliasing é algo a se evitar, mas não é proibido gostar do som que estamos vendo ali em cima. Quem disse que distorção precisa ser harmônica para funcionar em nosso caso?
3) Oversampling
Uma das maneiras de se evitar o problema do aliasing é através do Oversampling. O plugin internamente passa a sampling rate para um múltiplo da entrada (2x, 4x, 8x, etc) e com isso o limite de Nyquist é deslocado para cima, gerando muito menos aliasing. Vejamos o que acontece nesse mesmo plugin que estamos acompanhando quando nós ligamos a chave OS (Oversampling):
Repare que agora apenas o harmônico de 20kHz está presente, e apenasvuma componente de aliasing em 18kHz extremamente baixa aparece.
Evidentemente, o oversampling tende a melhorar as coisas, não fossem dois fatores. Para que o oversampling aconteça é preciso filtrar o sinal na frequência de Nyquist. Isso não dá problema, mas pra quem já fica encafifado com esses filtros...
A outra coisa, e essa de fato pode ser problemática, é que o plugin que faz oversampling consome mais CPU . Esse consumo pode ser bem alto, principalmente ao se usar oversampling acima de 2x. Não existe almoço grátis.
Para não nos estendermos demais, fica a orientação para usar OS quando o plugin tende a gerar muito aliasing (distorções pesadas, por exemplo), ou em plugins colocados em uma posição crítica, como é o caso do Limiter que faz o ajuste final de uma master. No mais, o OS pode ser simplesmente desperdício de CPU.
Mas o que pode piorar em 96kHz?
Nenhum desses efeitos que vimos até agora indica que se usar uma sampling rate de 96kHz possa piorar nosso resultado. Sim, obviamente todo mundo sabe que ao usar sampling rates mais altas estaremos consumindo 2x ou 4x ou 8x mais espaço em HD, e precisaremos de mais velocidade de comunicação com ele. Mas um contra-argumento é o de que hoje em dia espaço de HD e protocolo de comunicação não são preocupantes (mesmo que para isso vc tenha que esquecer que fabricar HDs consome recursos naturais, aumenta o aquecimento global e esse tipo de coisa). E os sistemas de hardware, mesmo ficando mais rápidos e poderosos, irão trabalhar mais próximos ao limite de sua capacidade, por exemplo se gravamos em 192kHz, o que pode provocar distorções de frequência e tempo.
Vamos focar apenas no purismo audiófilo. Ora, mesmo que eu esteja usando um ônibus de 46 lugares para transportar minha família de 4 pessoas , mal não faria. É só talvez um exagero de recursos.
Pois bem, é aí que entra o nosso vilão de hoje: A Distorção por Intermodulação
Distorção Por Intermodulação (IM)
Esse tipo de distorção acontece quando dois sinais são multiplicados (o processo é chamado modulação, e é o que permite a transmissão por rádio, por exemplo). Em um circuito ou plugin, a IM acaba estando muitas vezes presente quando ocorrem não-linearidades (p.ex. quadráticas e cúbicas)
Quando em um sistema ocorre a IM entre dois sinais a e b, a distorção aparece com uma frequência que é a diferença entre a e b e outra que é a soma. Ou seja, aparecem componentes não-harmônicos (chamados tecnicamente de "parciais" (*)) acima e abaixo da frequência de entrada. Normalmente os problemas de IM são mais evidentes na parte subtrativa.
Mas antes de passarmos ao problema em si, vejamos um caso em que a IM é usada como efeito: o Ring Modulator. Normalmente esse processador pega o sinal de entrada e modula um oscilador interno. Na saída nós vamos ter a frequência da diferença e da soma, e não teremos a frequência do sinal original nem do oscilador (a não ser que haja um "mix").
Abaixo enviamos uma frequência de 500Hz para um Ring Modulator sintonizado em 800Hz. Como era de se esperar, na saída ele apresenta 300Hz (800-500) e 1300Hz (800+500) e seus harmônicos.
O efeito obtido é bem "exótico" e radical, mas pode ter sua utilidade.
Combinação de Harmônicos
E aí chegamos ao problema que queríamos analisar. Quando nós usamos uma sampling rate mais alta que 48kHz nós estamos abrindo as portas para um monte de frequências inaudíveis (acima de 20kHz) , quer elas sejam benéficas ou não.
Se no mundo só existisse distorção harmônica e aliasing, isso talvez não fosse problema (embora acabe sendo). Só que não podemos esquecer da IM, com sua capacidade de gerar harmônicos para baixo (no caso, os "parciais").
Em todos esses casos de distorção, a coisa tende a ser muito mais drástica quando usamos distorções pesadas e simulações de amps. Por isso, para ilustrar bem o problema, vou apresentar alguns casos extremos.
Em uma sessão em 96kHz, vamos entrar com uma informação inaudível, que esteja entre 24 e 48 kHz. Para fazer isso, vou pegar um gerador de ruído rosa e logo depois dele vou inserir um filtro passa-altas bem inclinado com frequência de corte de 24kHz:
Muito bem. Nós agora só temos nessa sessão informações inaudíveis. Se eu fizer um bounce convertendo para 44.1kHz, não ouvirei nada como resultado (como o filtro não é perfeito, existe sim um áudio residual por volta de -100dB).
Pois bem. Vamos agora passar esse áudio que só tem a região acima de 24kHz em um processador que seja não-linear. Vejamos o Apogee Soft Limiter:
Toda essa informação que está aparecendo abaixo de 20kHz se deve a distorções que aconteceram em frequências somente acima de 24kHz. Ou seja: o fato de ter usado 96kHz gerou artefatos que não existiriam ali em 48kHz.
Que tal o Little Radiator?
Vamos testar em um simulador de amp. Afinal eu quero caprichar no som de guitarra:
Não se trata de julgar aqui se toda essa informação é boa ou ruim para o resultado. A questão é que ela não estaria lá se não fosse usada a sampling rate de 96kHz.
Pode-se demonstrar que em uma sessão em 48kHz com um oversampling usado em plugins que sejam mais suscetíveis à interação de harmônicos (amps, simulações de prés, saturadores, distorcedores), a gente consegue maior "limpeza" e fidelidade ao som original, com melhor utilização de nossos recursos.
Resumindo
Existe uma crença de que gravar nessas taxas mais altas melhora os agudos audíveis. O problema é que ao fazer isso nós também estamos abrindo as portas da sessão para a entrada de interações que só acontecem na região inaudível, mas que podem interferir no que ouvimos. Ou você acha que acima de 20kHz só tem coisa boa?
Nem sempre gravar em altas taxas é uma segurança. Pode ser uma garantia de piora.
(*) Observação muito útil de Lucas Meneguetti.
É o que digo. Globo da morte, muitas motos bagunçam. Pancada excessiva no jogo de bilhar.
Gravar em 96kHz é o que podemos chamar de "pecar pelo excesso". Valeu professor Fábio! Mais uma ótima aula! Grande abraço!