Opções do SOX que Geram Efeitos no Áudio :: Admirável Mundo Novo




Muito Bem Vindo

Prezado Leitor, a proposta desse Blog é compartilhar conhecimento com as pessoas que trabalham com Linux, Asterisk, OpenSER, e com tecnologia de voz sobre a rede IP em geral, através de tutoriais, dicas, howto, notícias entre outros assuntos.

Atente para termo de uso do conteúdo do blog no rodapé da página.

quarta-feira, 31 de dezembro de 2008

Opções do SOX que Geram Efeitos no Áudio





Efeitos

Múltiplos efeitos podem ser aplicados aos dados de áudio quando os especificando um após um outro ao final de cada linha de comando.


avg [ -l | -r | -f | -b | -1 | -2 | -3 | -4 | n,n,...,n ]

Reduz o número de canais calculando as amostras, ou canais duplicados para aumentar o número de canais. Esse efeito é usado automaticamente quando o número de canais de entrada diferir do número de canais de saída. Quando reduzindo o número de canais é possível especificar manualmente o efeito avg e usar as opções -l, -r, -f, -b, -1, -2, -3, -4, para selecionar somente os canais esquerdo, direito, frontal, traseiro ou o canal específico para a saída em vez da média dos canais. As opções -l, e -r executarão o cálculo da média em arquivos de quatro canais de modo a selecionar o canal exato para evitar isso.

O efeito avg pode ser também invocado com até 16 números de precisão dupla, separado por vírgulas, que especifica a proporção (0.0 = 0% e 1.0 = 100%) de cada canal de entrada que será misturado em cada canal de saída. No modo dois canais, 4 números são dados: l->l, l->r, r->l, e r->r, respectivamente. No modo quatro canais, os primeiros 4 números dão as proporções para o canal de saída esquerda/frontal, como segue aqui: lf->lf, rf->lf, lb->lf, e rb->rf. Os próximos 4 números dão a saída direita/frontal na mesma ordem, depois esquerda/traseira e direita/traseira.

É também possível usar 16 números para expandir ou reduzir a quantidade de canais; justamente especifica 0 para canais não usados.

Finalmente, certas combinações reduzidas de números podem ser especificadas para certas combinações de canais de entrada/saída.

In Ch Out Ch Num Mappings
_____ ______ ___ _____________________________
2 1 2 l->l, r->l

2 2 1 adjust balance

4 1 4 lf->l, rf->l, lb->l, rb-l

4 2 2 lf->l&rf->r, lb->l&rb->r

4 4 1 adjust balance

4 4 2 front balance, back balance

band [ -n ] center [ width ]

Aplica um filtro passa faixa. A resposta de freqüência decresce logaritmicamente em torno da freqüência center. O parâmetro width fornece a declividade da queda. As freqüências center+width e center–width terão a metade de suas amplitudes originais. O parâmetro band estabelece como padrão um modo orientado aos tipos de sinais qualificados (pitched), ou seja, voz, canto ou música instrumental. A opção –n (para ruído) usa o modo alternado para sinais não pitched. Aviso: -n introduz um ganho de potência em torno de 11 dB no filtro, portanto tenha ciência da clipagem na saída. O parâmetro band introduz ruído na figura do filtro, ou seja, chegando ao máximo na freqüência center e estabelecendo-se em torno dela. Veja o parâmetro filter para ver o efeito passa faixa com a declividade acentuada dos lados do trapezóide.


bandpass frequency bandwidth

Filtro passa faixa de Butterworth. A descrição em futuro próximo!


bandreject frequency bandwidth

Filtro rejeita faixa de Butterworth. A descrição em futuro próximo!


chorus gain-in gain-out delay decay speed depth
-s | -t [ delay decay speed depth -s | -t ... ]

Adiciona o efeito coro a uma amostragem de som. Cada quadtupla atraso/decaimento/velocidade/profundidade fornece o atraso em mili-segundos e o decaimento (relativo ao ganho de entrada) com uma velocidade de modulação em Hz usando a profundidade em mili-segundos. A modulação pode ser tanto senoidal (-s) quanto triangular (-t). O ganho de saída é o volume da saída.


compand attack1,decay1[,attack2,decay2...]
in-dB1,out-dB1[,in-dB2,out-dB2...]
[gain [initial-volume [delay ] ] ]

Compand (comprime ou expande) a faixa dinâmica de uma amostragem. O tempo de attack e decaimento especifica o tempo de integração sobre o qual o valor absoluto do sinal de entrada é integrado para determinar seu volume; attacks se refere a aumentar em volume e decaimentos se refere a diminuir. Onde mais de um par de parâmetros attack/decaimento é especificado, cada canal é tratado separadamente e o número de pares precisa estar de acordo com o número de canais de entrada. O segundo parâmetro é uma lista de pontos na função de transferência do compander especificado em dB relativo à amplitude máxima possível do sinal. Os valores de entrada precisam estar em uma ordem estritamente crescente, mas a função de transferência não precisa ser mono tonicamente crescente. O valor especial -inf precisa ser usado para indicar que o volume de entrada deve ser associado ao volume de saída. Os pontos -inf,-inf e 0,0 são assumidos; o segundo precisa ser sobrescrito, mas o primeiro não precisa.

O terceiro (opcional) parâmetro é um ganho de pós-processamento em dB que é aplicado após a compressão tenha acontecido; o quarto (opcional) parâmetro é um volume inicial a ser assumido para cada canal quando o efeito começa. Isso permite ao usuário fornecer um nível nominal inicialmente, de sorte que, por exemplo, um ganho mais largo não seja aplicado aos níveis de sinais iniciais antes da ação companding tenha começado a tomar efeito: é completamente provável que em tal evento, a saída seja severamente clipada enquanto o compander ajusta o ganho apropriadamente si mesmo.

O quinto parâmetro (opcional) é um atraso em segundos. O sinal de entrada é analisado imediatamente para controlar o compander, mas é atrasado antes de ser alimentado ao ajustador de volume. Especificar um atraso aproximado igual aos tempos de attack/decaimento permite ao compander operar efetivamente em um modo “preditivo” em vez de um modo “reativo”.


copy

Copia o arquivo de entrada para o arquivo de saída. Esse é o efeito padrão se ambos os arquivos tiverem a mesma taxa de amostragem.


dcshift shift [ limitergain ]

Deslocamento da componente DC dos dados de áudio, com a fórmula básica da amplitude linear. Isso é frequentemente útil se os seus dados de áudio tendem a não estar centralizado em torno do valor 0. Deslocando o de volta permitirá você conseguir mais ajustes de volume sem clipagem dos dados de áudio. A primeira opção é o valor dcshift. Ele é um número de ponto flutuante que indica a quantidade a deslocar. Um valor para a opção limtergain pode ser especificado também. Ele deve ser um valor bem menor que 1.0 e é usado somente nos picos para evitar clipagem.


deemph

Aplica uma atenuação no filtro de redução tripla para amostrar o áudio no formato CD. A resposta de freqüência da gravação é retificada com pré-ênfase. A filtragem é definida no documento do padrão ISO 908.


earwax

Torna o som mais fácil de escutar em fones de cabeça. Acrescenta trilhas de áudio para amostrar em formato de áudio CD de sorte que quando escutado em fones de cabeça a imagem estéreo é movida do lado de dentro da sua cabeça (padrão para fones de cabeça) para fora e na fronte do ouvinte (para alto-falantes). Veja em www.geocities.com/beinges para uma explicação completa.


echo gain-in gain-out delay decay [ delay decay ... ]

Adiciona o efeito eco para uma amostra de som. Cada parte atraso-decaimento dá o atraso em mili-segundos e o decaimento (relativo ao ganho de entrada) desse eco. Ganho de saída é o volume da saída.


echos gain-in gain-out delay decay [ delay decay ... ]

Adiciona uma seqüência de ecos a uma amostra de som. Cada parte atraso-decaimento dá o atraso em mili-segundos e o decaimento (relativo ao ganho de entrada) desse eco. Ganho de saída é o volume da saída.


fade [ type ] fade-in-length
[ stop-time [ fade-out-length ] ]

Adiciona um efeito fade ao começo, fim, ou a ambos dos dados de áudio.
Para os fade-ins, isso começa a partir da primeira amostra e aumenta o volume do áudio a partir de 0 para volume completo além de fade-in-length segundos. Especifica 0 segundo se nenhum fade de entrada for desejado.

Para os fades de saída, os dados de áudio serão truncados no stop-time e o volume será declinado a partir do volume cheio até 0 começando de fade-out-length segundos antes do stop-time. Se o fade-out-length não for especificado, ele padroniza ao mesmo valor que o de fade-in-length. Nenhum fade de saída será executado se o stop-time não for especificado. Em todas às vezes podem ser especificadas tanto em períodos de tempo quanto em quantidade de amostras. Para especificar períodos de tempo use o formato hh:mm:ss.frac. Para especificar usando quantidades de amostras, especifique o número de amostras e anexe a letra 's' à quantidade de amostra (por exemplo, 8000s). Um type opcional pode ser especificado para alterar o tipo de envelope. As escolhas são: q para um quarto de uma onda senoidal; h para metade de uma onda senoidal; t para declividade linear; l para logarítmica, e p para parábola invertida. O padrão é uma declividade linear.


filter [ low ]-[ high ] [ window-len [ beta ] ]

Aplica um filtro passa-baixa, passa-alta ou passa-faixa janelado com Sinc de dado tamanho de janela ao sinal. O parâmetro low se refere à freqüência do canto inferior 6 dB do filtro. O parâmetro high se refere à freqüência do canto superior 6 dB do filtro.

Um filtro lowpass é obtido deixando low sem ser especificado, ou 0. Um filtro highpass é obtido deixando high não especificado, ou 0, ou maior ou igual à freqüência de Nyquist.

A window-len, se não for especificada, é padronizada como 128. Janela mais longa gera uma freqüência de corte acentuada, janela mais curta gera uma freqüência de corte mais gradual.
O parâmetro beta, se não for especificado, é padronizado como 16. Ele seleciona uma janela Kaiser. Você pode selecionar uma janela Nuttall especificando qualquer coisa <= 2.0 aqui. Para mais discussão sobre beta, estude mais sob o efeito gerado pela opção resample.

flanger gain-in gain-out delay decay speed < -s | -t >

Adicione um flanger para uma amostra de som. Cada tripla atraso/decaimento/velocidade dá o atraso em mili-segundos e o decaimento (relativo ao ganho de entrada) com uma velocidade de modulação em Hz. A modulação é será tanto senoidal (-s) ou triangular (-t). O ganho de saída é o volume da saída.


highp frequency

Aplica um filtro passa alta de um único pólo recursivo. A resposta de freqüência cai logaritmicamente com a freqüência no meio da descida. A declividade do filtro é totalmente moderada. Veja o parâmetro filter para o efeito de um filtro passa alta com acentuada freqüência de corte.


highpass frequency

Filtro passa - alta de Butterworth. A descrição em futuro próximo!


lowp frequency

Aplica um filtro passa baixa com um único pólo recursivo. A resposta de freqüência decai logaritmicamente com a frequency no meio da queda. A declividade do filtro é completamente moderada. Veja o parâmetro filter para ver o efeito passa baixa com acentuada freqüência de corte.


lowpass frequency

Filtro passa - baixa de Butterworth. A descrição em futuro próximo!


mask

Adiciona "máscara de ruído" ao sinal. Esse efeito adiciona deliberadamente ruído Branco a um som a fim de mascarar os efeitos da quantização, criado pelo processo para tocar um som digitalmente. Ele tende a mascarar vozes zoadentas, por exemplo. Ele adiciona 1/2 bit de ruído ao arquivo de som na profundidade do bit de saída.


mcompand "attack1,decay1[,attack2,decay2...]
in-dB1,out-dB1[,in-dB2,out-dB2...]
[gain [initial-volume [delay ] ] ]" xover_freq

O compander de múltiplas bandas é similar ao compander de banda única, mas o arquivo de áudio é primeiro dividido em bandas e depois o compander é executado sobre cada banda. Veja o efeito compand para definição de suas opções. Opções de Compand são especificados entre aspas duplas e a freqüência crossover para essa banda é especificada separadamente com xover_fre. Isso pode ser repetido múltiplas vezes para criar múltiplas bandas.


noiseprof [profile-file]
noisered profile-file [threshold]

Filtro de redução de ruído com especificação de perfil. Esse filtro é moderadamente efetivo na remoção consistente do ruído de fundo como hiss ou hum. Para usá-lo, primeiro execute o efeito noiseprof em uma seção de silêncio (isto é, uma seção que contem nada, mas ruído). O efeito noiseprof imprimirá um perfil de ruído em profile-file, ou em stdout se nenhum profile-file for especificado. Se existir saída de som em stdout, em vez disso, então o perfil será direcionado para stderr.

Para remover realmente o ruído, execute o SoX novamente com o filtro noisered. O filtro precisa de um argumento, profile-file, que contem o perfil de ruído a partir de noiseprof. O parâmetro threshold especifica quanto de ruído deve ser removido, e pode estar entre 0 e 1 sendo o valor 0,5 o padrão. Valores mais altos removerá mais ruído mas apresenta uma grande possibilidade de distorção do sinal de áudio. Experimente valores de limiares diferentes para descobrir um valor ótimo para o seu exemplo.


pan direction

Pan o som de um arquivo de áudio de um canal para um outro. Isso é feito alterando o volume dos canais de entrada de modo que ele executa a saída de fade em um canal e executa a entrada de fade em um outro. Se o número de canais de entrada for diferente do número de canais de saída então esse efeito tenta tratar isso inteligentemente. Por exemplo, se a entrada contiver 1 canal e a saida contiver 2 canais, então ele criará o canal faltante por conta própria. O parâmetro direction é um valor de -1.0 a 1.0. O valor -1.0 representa mais a esquerda e 1.0 representa o valor mais direita. Números de entrada entre iniciará o efeito pan sem totalmente deixar mudo o canal oposto.


phaser gain-in gain-out delay decay speed < -s | -t >

Adiciona um programador de fase a uma amostra de som. Cada tripla atraso/decaimento/velocidade dá o atraso em mili-segundos e o decaimento (relativo ao ganho de entrada) com uma velocidade de modulação em Hz. A modulação tanto será senoidal (-s) como triangular (-t). O decaimento deve ser menor que 0.5 para evitar realimentação. O ganho de saída será o volume da saída.


pick [ -1 | -2 | -3 | -4 | -l | -r | -f | -b ]

Escolhe um subconjunto de canais a ser copiados no arquivo de saída. Esse efeito é justamente um apelido do efeito "avg", mas foi deixado aqui por razões históricas.


pitch shift [ width interpole fade ]

Altera o pitch do arquivo sem afetar sua duração pela cross-fading shifted samples. O parâmetro shift é dado em percentual. Use um valor positivo para deslocar para agudo, valor negativo para deslocar para grave. O shift padrão é 0. A largura width da janela está em ms. A largura width padrão é 20ms. Tente 30ms para baixar o pitch, e 10ms para aumentar o pitch. A opção interpole, pode ser "cubic" ou "linear". O padrão é "cubic". A opção fade, pode ser "cos", "hamming", "linear" ou "trapezoid". O padrão é "cos".


polyphase [ -w < nut | ham > ]
[ -width < long | short | # > ]
[ -cutoff # ]

Traduz a taxa de amostragem de entrada para taxa de amostragem de saída via interpolação de polifase, um algoritmo DSP. Esse método é lento e usa um bocado de RAM, mas dá resultados bem melhores do que rate.

-w < nut | ham > : seleciona tanto uma janela Nuttal (banda de corte ~90 dB) como uma janela Hamming (banda de corte ~43 dB). O padrão é nut.

-width long | short | # : especifica a largura width (aproximada) do filtro. O parâmetro long é de 1024 amostras; o parâmetro short é de 128 amostras. Alternativamente, um número exato pode ser usado. O padrão é long. A opção short não é recomendada, porque ela produz resultados de baixa qualidade.

-cutoff # : especifica a freqüência de corte do filtro em termos de fração da freqüência da largura de banda, também conhecido como a freqüência de Nyquist. Favor veja o efeito resample para mais informações a cerca da freqüência de Nyquist. Se upsampling, então essa é a fração do sinal original que deve passar. Se downsampling, essa é a fração do sinal excluído depois a downsampling. O padrão é 0.95. Lembre-se que isso é um flutuante.


rate

Traduz a taxa de amostragem de entrada para taxa de amostragem de saída via interpolação linear pelo Menor Múltiplo Comum das duas taxas de amostragem. Esse é o efeito padrão se os dois arquivos tiverem taxas de amostragem diferentes e se as opções prévias foram especificadas. Essa é rápida, mas gera ruído: o espectro do som original será deslocado pra cima e duplicado levemente quando fazendo a translação pra frente por um múltiplo.

Lerp-ing é aceitável para hardware barato de som de 8 bits, mas para som com qualidade de CD você deve em vez disso usar ou a opção resample ou a opção polyphase. Se você estiver curioso sobre quais efeitos de alteração de taxa usar, você vai querer ler uma análise detalhada de tudo a respeito disso em http://leute.server.de/wilde/resample.html.


repeat count

Repete os dados de áudio count vezes. Requer espaço de disco para armazenar os dados a serem repetidos.


resample [ -qs | -q | -ql ] [ rolloff [ beta ] ]

Faz a translação da taxa de amostragem do arquivo de entrada para taxa de amostragem do arquivo de saída via filtragem analógica simulada. Esse método é mais lento que a opção rate, mas produz resultados bem melhores.

Por padrão, a interpolação linear é usada, com uma largura de janela em torno de 45 amostras com o menor valor das duas taxas. Isso produz uma precisão em torno de 16 bits, mas banda de rejeição insuficiente no caso em que você desejar ter rolloff maior do que em torno de 0.80 da freqüência de Nyquist.

As opções -q* vão alterar os valores padrão para rolloff e beta bem como usar interpolação quadrática dos coeficientes do filtro, resultando em precisão em torno de 24 bits. As opções -qs, -q, ou -ql especificam precisão aumentada ao custo de velocidade de execução mais baixa. É opcional especificar os parâmetros rolloff e beta quando usando as opções -q*.

A seguir está uma tabela razoável com valores padrões que estão embutidos no SoX:


Option Window rolloff beta interpolation
------ ------ ------- ---- -------------
(none) 45 0.80 16 linear

-qs 45 0.80 16 quadratic

-q 75 0.875 16 quadratic

-ql 149 0.94 16 quadratic
------ ------ ------- ---- -------------

-qs, -q, ou -ql usam tamanhos de janela de 45, 75 ou 149 amostras, respectivamente, com a menos taxa de amostragem dos dois arquivos. Isso significa rejeição progressivamente aguda na banda de rejeição, proporcionalmente em menores tempos de execução.

rolloff se refere à freqüência de corte do filtro passa baixa e é dado em termos da freqüência de Nyquist para a taxa de amostragem mais baixa. rolloff consequentemente deve ser algo entre 0.0 e 1.0, na prática 0.8-0.95. Os valores padrões são indicados acima.

A freqüência de Nyquist é igual a (taxa de amostragem / 2). Logicamente, isso é devido ao conversor A/D precisar de pelo menos 2 amostras para detectar 1 ciclo na freqüência de Nyquist. Freqüências mais altas que a freqüência de Nyquist realmente vai aparecer como freqüências mais baixas ao conversor A/D e é chamado aliasing. Normalmente, os conversores A/D primeiro executam o sinal através de um filtro passa alta para evitar esses problemas.

Problemas similares vão acontecer em software quando reduzindo a taxa de amostragem de um arquivo de áudio (freqüências acima da nova freqüência de Nyquist podem ser aliased para freqüências mais baixa). Portanto, um bom efeito de re-amostragem vai remover toda a informação de freqüência acima da nova freqüência de Nyquist.

O rolloff se refere o quanto esse corte for próximo da freqüência de Nyquist, quanto tão próximo for melhor. Quando aumentando a taxa de amostragem de um arquivo de áudio você não deve esperar ter a existência de quaisquer freqüências que seja passado à freqüência de Nyquist original. Por causa das propriedades da re-amostragem, é comum ter a produção de alias nos dados criados que está acima da freqüência antiga de Nyquist. Neste caso o rolloff se refere à quão próxima for da freqüência de Nyquist original para usar um filtro passa alta para remover esses dados falsos, da mesma forma quanto mais próxima for melhor.

O parâmetro beta determina o tipo de janela de filtro usado. Um valor maior que 2.0 é o valor de beta para uma janela Kaiser. Beta <= 2.0 seleciona uma janela Nuttall. Se não for especificado, o padrão é uma janela Kaiser com beta igual a 16.

No caso da janela Kaiser (beta > 2.0), valores de beta menores produzem transição um tanto mais rápida do passa faixa para o rejeita faixa, ao custo de artefatos observáveis. O valor de beta igual a 16 é o padrão, o valor de beta menor que 10 não seja recomendado. Se você quiser um corte mais acentuado, não use valores de beta baixos, use uma janela de amostragem mais longa. Uma janela Nuttall é selecionada especificando qualquer valor de 'beta' <= 2, e a janela Nuttall possui corte um tanto mais excessivo que a janela Kaiser padrão. Você provavelmente não precisará usar o parâmetro beta de modo algum, a não ser que você esteja realmente curioso a respeito da comparação dos efeitos das janelas de Nuttall versus Kaiser.

Esse é o efeito padrão se dois arquivos tiverem diferentes taxas de amostragem. Parâmetros padrões são, como indicado acima, tamanho da janela Kaiser 45, rolloff 0.80, beta 16 e interpolação linear.

OBS1.: -qs é somente ligeiramente inferior, porém mais preciso para 16-bits ou para precisão superior.

OBS2.: Em muitos casos de up-sampling, nenhuma interpolação é preciso, como os coeficientes exato do filtro podem ser computados em uma quantidade de espaço razoável. Para ser preciso, isso é feito quando:

input_rate < output_rate

&&

output_rate/gcd(input_rate,output_rate) <= 511


reverb gain-out reverbe-time delay [ delay ... ]

Adiciona reverberação a uma amostra de som. Cada atraso é dado em milisegundos e seu feedback é dependente do tempo de reverberação em milisegundos. Cada atraso deve estar na faixa da metade a um quarto do tempo de reverberação para se ter uma reverberação realística. O ganho de saída é o volume da saída.


reverse

Inverte a amostra de som completamente. Incluído descobrir subliminares Satânicos.


silence above_periods [ duration threshold[ d | % ]
[ below_periods duration threshold[ d | % ]]

Remove o silêncio do começo, meio, ou do fim de um arquivo de som. Silêncio é qualquer coisa abaixo de um limiar especificado.

O valor above_periods é usado para indicar se o som deve ser removido desde o começo do arquivo de áudio. Um valor zero indica que não deve ser removido nenhum silêncio desde o começo. Quando for especificado um valor diferente de zero para above_periods, ele remove o áudio até que ele encontre a não existência de nenhum silêncio. Normalmente, quando removendo o silêncio do áudio desde o começo do arquivo o parâmetro above_periods será 1, mas pode ser aumentado para valores mais altos para remover todos os dados até uma contagem específica de períodos sem silêncio. Por exemplo, se você tinha um arquivo de áudio com duas canções com cada uma contendo 2 segundos de silêncio antes da canção, você pode especificar um above_period de 2 para remover ambos os períodos de silêncio e a primeira canção.

Quando above_periods não for zero, você precisa também especificar uma duration e threshold. O parâmetro duration indica a quantia de tempo que nenhum silêncio precisa ser detectado antes de parar a remoção de dados. Aumentando a duração, rajadas de ruído podem ser tratadas como silêncio e removidos.

O parâmetro threshold é usado para indicar qual valor de amostra você deve tratar como silêncio. Para áudio digital, o valor 0 pode ser bom mas para áudio gravado a partir do analógico, você pode desejar aumentar esse valor para considerar o ruído de fundo.

Opcionalmente quando removendo o silêncio a partir do fim de um arquivo de som, você especifica uma quantia below_periods. Nesse caso, below_period significa remover todos os dados de áudio após o silêncio ser detectado. Normalmente, esse valor será 1, mas ele pode ser aumentado para cair depois dos períodos de silêncio que seja desejado. Por exemplo, se você tiver uma canção com 2 segundos de silêncio no meio e 2 segundos no final, você pode definir below_period com um valor de 2 para ir além do silêncio no meio do arquivo de áudio.

Para below_periods, o parâmetro duration especifica um período de silêncio que precisa existir antes que os dados não sejam copiados por ninguém mais. Especificando uma duração maior, silêncio que é desejado pode ser deixado no áudio. Por exemplo, se você tiver uma canção com um 1 segundo esperado de silêncio no meio e 2 segundos de silêncio no final, e duração de 2 segundos pode ser usado para ir além do meio do silêncio.

Infelizmente, você precisa saber o tamanho do silêncio no final do seu arquivo de áudio para remover o silêncio de forma confiável. Um atalho é usar o efeito silence em combinação com o efeito reverse. Invertendo o áudio primeiro, você pode usar o parâmetro above_periods para remover todo o áudio com confiabilidade a partir do qual parece à frente do arquivo. Depois inverte novamente o arquivo para voltar ao normal.

Para remover silêncio do meio de um arquivo, especificar um below_periods que seja negativo. Esse valor é então tratado como um valor positivo e é também usado para indicar o efeito que deve restartar processamento quando especificado pelo parâmetro above_periods, tornando-o ajustável pela remoção dos períodos de silêncio no meio do arquivo de som.

As contagens period estão em unidades de amostras. As contagens duration podem estar no formato de hh:mm:ss.frac, ou a contagem exata de amostras. Aos números threshold podem ser colocados sufixos com d, ou % para indicar o valor que está em decibéis ou uma percentagem de valor máximo do valor da amostra (0% especifica silêncio digital puro).


speed [ -c ] factor

Aumenta ou diminui a velocidade do som, como uma fita magnética com um controle de velocidade. Essa opção afeta tanto o pitch como tempo. Um fator 1.0 significa nenhuma alteração, e é o valor padrão. 2.0 dobra a velocidade, conseqüentemente a duração de tempo é cortada pela metade e pitch é um oitavo maior. O valor 0.5 divide por dois a velocidade consequentemente dobra a duração de tempo e o pitch é um oitavo inferior. Se o parâmetro -c opcional for usado então o fator é especificado em "cents".


stat [ -s n ] [-rms ] [ -v ] [ -d ]

Faz uma verificação estatística no arquivo de entrada, e imprime os resultados no arquivo de erro padrão. Os dados do Áudio são passados sem serem modificados do arquivo de entrada para o arquivo de saída a não ser que usado em conjunto com a opção -e.

O campo "Volume Adjustment:" nas estatísticas fornecem a você o argumento ao -v number que tornará a amostra tão ruidosa quanto possível sem clipagem.

A opção -v imprimirá na saída somente o valor do campo "Volume Adjustment:" e retorna. Isso pode ser útil em scripts para auto converter o volume.

A opção -s n é usada para escalar os dados de entrada por fator dado. O valor padrão de n é o valor máximo de uma variável long sinalizada (0x7fffffff). Efeitos internos sempre funcionam com dados PCM long sinalizado e assim o valor deve estar relacionado com esse fato.

A opção ‘-rms’ converterá todos os valores médios de saída para o formato root mean square.

Existe também um parâmetro opcional -d que imprimirá na saída um hex dump do arquivo de som no buffer interno que está em dados PCM 32 bits sinalizado. Isso é principalmente somente de uso em rastreamento de problemas down endian que se arrastam no SoX em versões para várias plataformas.


stretch factor [window fade shift fading]

Alongamento do tempo de arquivo por um dado fator. Altera a duração sem afetar o pitch. O parâmetro factor de alongamento: >1.0 para alongar a duração, <1.0 para encurtar a duração. O tamanho window está em ms. O padrão é 20ms. A opção fade, pode ser "lin". A taxa shift, em [0.0 1.0]. O padrão depende do fator de stretch. O valor 1.0 para encurtar, o valor 0.8 para alongar. A taxa fading, em [0.0 0.5]. A quantidade de um padrão de fade depende do factor e shift.


swap [ 1 2 | 1 2 3 4 ]

Troca canais em arquivos de som multi-canais. Opcionalmente, você pode especificar a ordem do canal que você gostaria a saída entrada. Isso padroniza a saída do canal 2 e depois 1 para estéreo e 2, 1, 4, 3 para quad-canais. Uma funcionalidade interessante é que você pode duplicar um dado canal sobrescrevendo um outro. Isso é feito repetindo um canal de saída na linha de comando. Por exemplo, swap 2 2 vai sobrescrever o canal 1 com os dados do canal 2; criando um arquivo estéreo com ambos os canais que contem os mesmos dados de áudio.


synth [ length ] type mix [ freq [ -freq2 ]
[ off ] [ ph ] [ p1 ] [ p2 ] [ p3 ]

O efeito synth vai gerar vários tipos de dados de áudio. Embora esse efeito seja usado para gerar dados de áudio, um arquivo de entrada precisa ser especificado. O tamanho do arquivo de áudio de entrada determina o tamanho do arquivo de áudio de saída.

tamanho em seg ou hh:mm:ss.frac, 0=inputlength, padrão=0
é seno, quadrado, triangular, dente de serra, trapezoidal, exponencial, ruído branco, ruído rosa, ruído marrom, padrão=seno
é create, mix, amod, padrão=create
freqüência no começo em Hz, não usado para ruído..
freqüência no final em Hz, não usado para ruído.. pode ser dado como %%n, onde 'n' é o número da metade de notas em respeito a A (440Hz)
Bias (DC-offset) de sinal em percentagem, padrão=0
phase shift 0..100 shift phase 0..2*Pi, não usado para ruído..
square: Ton/Toff, triangle+trapetz: rising slope time (0..100)
trapetz: ON time (0..100)
trapetz: falling slope position (0..100)


trim start [ length ]

A opção trim pode remover dados de áudio não desejados do começo e do final do arquivo de áudio. As amostras de áudio não são enviadas ao fluxo de saída até que a posição start seja alcançada. O parâmetro opcional length informa o número de amostras para a saída após a amostra start e é usada para remover a parte posterior dos dados de áudio. Usando um valor 0 para o parâmetro start permitirá remover a parte posterior somente. Ambas as opções podem ser especificadas usando tanto uma quantidade de tempo como uma contagem exata de amostras. O formato para especificar comprimentos em tempo é hh:mm:ss.frac. Um valor 1:30.5 para start não iniciará até que 1 minuto e trinta segundos e ½ nos dados de áudio. O formato para especificar quantidades de amostras é o número de amostras com a letra ‘s’ anexada a ela. Um valor de 8000s aguardará até que 8000 amostras sejam lidas antes de começar a processar os dados de áudio.


vibro speed [ depth ]

Adiciona o efeito sonoro famoso mundialmente Fender Vibro-Champ a uma amostra de som usando uma onda senóide igual ao volume knob. O parâmetro speed fornece o valor em Hertz da onda. Esse precisa ser inferior a 30. O parâmetro depth fornece a quantia do volume que é cortada dentro pela onda senóide, faixa 0.0 a 1.0 e padronizando em 0.5.


vol gain [ type [ limitergain ] ]

O efeito vol é muito parecido com a opção de linha de comando –v. Ele permite você ajustar o volume de um arquivo de entrada e permite você especificar o ajuste em relação à amplitude, a potência ou em dB. Se type não for especificado então ele padroniza para amplitude. Quando type for amplitude então uma alteração linear da amplitude é executada baseada no ganho. Consequentemente, um valor 1.0 manterá o volume igual, um valor entre 0.0 a <1.0 fará o volume diminuir e valores > 1.0 fará o volume aumentar. Tomar cuidado com a clipagem dos dados de áudio quando o ganho for maior que 1.0. Um valor negativo executa o mesmo ajuste porquanto alterando também a fase. Quando type for power então um valor de 1.0 também significa nenhuma alteração no volume. Quando type for dB a amplitude é alterada logaritmicamente. O valor 0.0 é constante enquanto +6 dobra a amplitude. Um valor opcional limitergain pode ser especificado e deve ser um valor bem menor que 1.0 (ou seja, 0.05 ou 0.02) e é usado somente nos picos para evitar clipagem. A não especificação desse parâmetro fará que nenhum limitador seja usado. No modo verbose, esse efeito exibirá a percentagem dos dados de áudio que precisaram ser limitados.



Bugs

A sintaxe é horrível. Mas, isso são as coisas acontecem quando se tenta manipular todas as coisas a partir da linha de comando.

Favor reporte quaisquer bugs encontrado nessa versão do SoX ao Chris Bagwell (cbagwell@users.sourceforge.net).



Arquivos



Veja Também
play(1), rec(1), soxexam(1)



Observações


A versão do SoX que acompanha esse página manual é suportada pelo Chris Bagwell (cbagwell@users.sourceforge.net). Favor consulte quaisquer questões relativas ao SoX nesse endereço. Você pode obter a versão mais recente no website: http://sox.sourceforge.net/.



Autor

Chris Bagwell (cbagwell@users.sourceforge.net).



Updates by Anonymous



REFERENCIADO POR

bchunk(1), cdrdao(1), graveman(1), lav2wav(1), mpg123(1), twolame(1), vboxplay(1)















... Voltar                  ... Voltar ao Início















Nenhum comentário:




Creative Commons License
Admirável Mundo Novo: Tudo Sobre Asterisk, OpenSER, Linux e Tecnologias de Voz sobre IP
by Cléviton Mendes de Araújo is licensed under a Creative Commons Atribuição 2.5 Brasil License.