En un plano puramente físico, el sonido es simplemente una perturbación mecánica de un medio. El medio en cuestión puede ser sólido, líquido, gaseoso o una combinación de estos. Esta perturbación en el medio hace que las moléculas se desplacen hacia adelante y hacia atrás de una manera similar a como lo hace un resorte. A medida que una molécula impacta a la siguiente, la perturbación se mueve a través del medio haciendo que el sonido viaje. Estas compresiones y rarefacciones en el medio pueden ser descriptas como ondas sonoras. El tipo más simple de forma de onda, que describe lo que se conoce como "movimiento armónico simple", es una onda sinusoidal.
Cada vez que la señal pasa por encima del 0 las moléculas se encuentran en un estado de compresión, lo que significa que cada molécula contenida en la perturbación está empujando hacia la molécula siguiente. En cambio, cada vez que la señal cae por debajo del 0 las moléculas están en un estado de rarefacción y, por lo tanto, se encuentran alejándose de dichas moléculas. Cuando una onda muestra un patrón de repetición claro, como en el caso anterior, se dice que es periódica. Los sonidos periódicos dan lugar a la sensación de altura.
Las ondas periódicas poseen cuatro parámetros comúnes. Cada uno de ellos afecta la forma en la que percibimos el sonido.
Período: La cantidad de tiempo que tardará una onda en completar un ciclo. Se representa con la letra t.
Longitud de Onda: La distancia que ocupa una onda al completar un período completo. Se suele medir en metros.
Frecuencia: El número de ciclos o períodos por segundo. La frecuencia se mide en Hertz. Si un sonido tiene una frecuencia de 440Hz entonces podemos decir que completa 440 ciclos en cada segundo. Dada una frecuencia determinada, uno puede facilmente calcular el período de un sonido. Matemáticamente hablando, el período es el recíproco de la frecuencia (y viceversa). Escrito como ecuación esto se expresa de la siguiente manera:
Frecuencia = 1/Período Período = 1/Frecuencia
Por tanto, la frecuencia es la inversa del período. A modo de ejemplo, una onda de 100 Hz de frecuencia tiene un período de 1/100 o 0.01 segundos. De la misma manera, una frecuencia de 256Hz tiene un período de 1/256 o 0.004 segundos. Para calcular la longitud de onda de un sonido en un medio determinado podemos usar la siguiente ecuación:
Longitud de onda = Velocidad/Frecuencia
Los seres humanos podemos oir frecuencias que van desde los 20Hz hasta los 20000Hz (aunque esto puede variar de individuo a individuo y el límite superior tiende a reducirse con la edad). Para mayor información acerca de la frecuencia, consulte el siguiente capítulo.
Fase: El punto de partida de una onda. El punto de partida a lo largo del eje Y de nuestra onda no es siempre 0. Se puede representar la fase en grados o radianes. Un ciclo completo de una onda cubrirá 360 grados o (2*pi) radianes.
Amplitud: La fuerza a la que las moléculas se acercan o alejan entre ellas. La amplitud de una onda se representa en el eje Y de la gráfica y es un parámetro subordinado a la resistencia ofrecida por el medio, que determinará que tan arriba o abajo del 0 -el punto de equilibrio- fluctuará la onda. Cuanto mayor sea el valor de Y, tanto máyor será la amplitud de la onda. Cuanto mayor sean las compresiones y rarefacciones, tanto mayor será la amplitud.
Las ondas de sonido analógicas que oímos en el mundo que nos rodea necesitan ser convertidas a una señal eléctrica para poder ser amplificadas o enviadas a una tarjeta de sonido durante el proceso de grabación. El proceso de conversión de energía acústica en forma de ondas de presión a una señal eléctrica se lleva a cabo por un dispositivo conocido como transductor.
Un transductor, que se encuentra generalmente en los micrófonos, produce una tensión eléctrica cambiante que refleja las compresiones y rarefacciones de las moléculas de aire causadas por la onda sonora. La variación continua de la presión es, por tanto, 'transducida' en una variación continua de tensión (voltaje). Cuanto mayor sea la variación de presión, mayor será la variación de la tensión que se envía a la computadora.
Idealmente el proceso de transducción debe ser lo más transparente posible: todo lo que ingresa debe salir como un análogo perfecto en la representación del voltaje. En la práctica, sin embargo, esto nunca se da así, ya que siempre se incorpora algún grado de ruido y distorsiónen a la señal. Cada vez que un sonido pasa a través de un transductor o es transmitido eléctricamente se producirá un cambio en la calidad de la señal. Cuando hablamos de "ruido" estamos hablando específicamente de cualquier señal no deseada capturada durante el proceso de transducción. Esto normalmente se manifiesta como un 'silbido' indeseado.
El voltaje analógico correspondiente a una señal acústica cambia continuamente, de modo que en cada instante tendrá un valor diferente. En la práctica, no es posible que un equipo reciba el valor de la tensión correspondiente a cada instante debido a las limitaciones físicas presentes tanto en las computadoras como en los conversores de datos (recuerde que existe un número infinito de segmentos contenidos entre cada dos segmentos!).
Lo que la tarjeta de sonido puede hacer, sin embargo, es medir la potencia de la tensión analógica a intervalos regulares. Este proceso se conoce como "muestreo" y es lo que hace posiblecualquier captura digital de un sonido. Como resultado se obtiene una señal discreta o digital, que no es otra cosa que una secuencia de números que se corresponden con el valor de la tensión presente en cada momento del muestreo.
El siguiente gráfico (izquierda) muestra la representación de una onda sinusoidal. Las líneas verticales de color rojo representan los puntos en el tiempo en que se toma una instantánea de la señal. Luego de que la toma de muestras ha tenido lugar, se obtiene lo que se conoce como señal discreta, que consiste de un conjunto de muestras de audio, tal como se ilustra en el gráfico de la derecha. Si se utilizara un editor de audio típico las muestras entrantes se almacenarían en la memoria RAM del ordenador (memoria de acceso aleatorio). En Csound es posible, además, procesar dichas muestras en tiempo real y reproducir el resultado (una nueva cadena de muestras) por la salida de la placa de audio, o bien almacenarlas en el disco duro en forma de archivo de sonido.
Es importante recordar que cada muestra representa la cantidad de voltaje, positivo o negativo, que estaba presente en la señal en el momento en que se tomó la muestra o instantánea.
El mismo principio se aplica a la grabación de vídeo en directo: una cámara de video toma una secuencia de imágenes y la mayoría de las cámaras de vídeo almacenan entre 30 y 60 imágenes fijas por segundo. Cada imagen se llama marco y cuando estos se reproducen en secuencia a una velocidad que corresponde con aquella a la que se tomaron, ya no los percibimos como imágenes individuales, sino como una imagen en movimiento contínuo.
En general, los sistemas analógicos pueden ser bastante poco fiables cuando se trata de ruido y distorsión. Cada vez que algo se copia o se transmite se introduce un poco de ruido y distorsión en el proceso. Si esto se repite muchas veces, el efecto acumulativo puede deteriorar una señal considerablemente. Es por esta razón que la industria de la música ha virado casi en su totalidad hacia la tecnología digital. Una ventaja específica del almacenamiento de una señal en formato digital es que una vez que la señal analógica ha sido convertida a una serie discreta de valores, esta puede ser 'clonada' y de esos clones se pueden hacer otros, sin sufrir pérdidas o distorsiones que afecten a la calidad de los datos. Con el audio ya digitalizado, pueden aplicarse rutinas matemáticas que prevengan errores en la transmisión, que de otra manera podría introducir ruido en la señal.
La frecuencia de muestreo describe el número de muestras (imágenes / instantáneas) tomadas a cada segundo. Para "muestrear" una señal de audio correctamente es importante prestar atención al teorema de muestreo:
"Para representar digitalmente una señal que contiene frecuencias de hasta X Hz, es necesario utilizar una frecuencia de muestreo de al menos 2X muestras por segundo"
De acuerdo a este teorema, una tarjeta de sonido o cualquier otro dispositivo de grabación digital, no será capaz de representar cualquier frecuencia por encima de la mitad de la frecuencia de muestreo. La mitad de la frecuencia de muestreo también se conoce como la frecuencia de Nyquist, en honor al físico sueco Harry Nyquist, quien formaliza la teoría original en la década de 1920. En resumen, podemos decir que cualquier señal con frecuencias superiores a la frecuencia de Nyquist será representada de manera incorrecta y en consecuencia producirá una frecuencia inferior a la que se pretende capturar. Cuando esto sucede, el efecto resultante se conoce como "aliasing" o "foldover".
He aquí una representación gráfica del aliasing.
La onda senoidal de color verde está siendo muestreada a cada momento en que las flechas rojas aparecen. La línea que une a los círculos rojos juntos es la forma de onda capturada al final del proceso. Como se puede ver, esta última y la forma de onda original expresan diferentes frecuencias.
Otro ejemplo:
Podemos observar que si la frecuencia de muestreo es de 40KHz no habrá ningún problema con el muestreo de una señal que es de 10KHz. Por otro lado, en el segundo ejemplo se puede notar que una forma de onda de 30 kHz no va a ser muestreada correctamente. De hecho obtendremos al final una onda de 10 kHz, en lugar de una de 30 kHz. Esto puede parecer un ejercicio teórico en tanto que por las limitaciones del sistema auditivo del ser humano nunca seremos capaces de oir una onda de 30KHz, pero algunos procedimientos de síntesis y DSP producirán estas frecuencias como subproductos inevitables y es necesario asegurarse de que éstas no den lugar a efectos indeseados.
El siguiente instrumento de Csound reproduce primero un tono de 1000 Hz directamente, y luego como consecuencia de que la frecuencia solicitada es 1000 Hz inferior a la frecuencia de muestreo utilizada, que es de 44100 Hz:
EXAMPLE 01A01_Aliasing.csd
<CsoundSynthesizer> <CsOptions> -odac </CsOptions> <CsInstruments> ;ejemplo por Joachim Heintz sr = 44100 ksmps = 32 nchnls = 2 0dbfs = 1 instr 1 asig oscils .2, p4, 0 outs asig, asig endin </CsInstruments> <CsScore> i 1 0 2 1000 ; tono de 1000 Hz i 1 3 2 43100 ; tono de 43100 Hz que suena como 1000 Hz debido al aliasing </CsScore> </CsoundSynthesizer>
El mismo fenómeno tiene lugar en el cine y también en el vídeo. Es posible que recuerde en los viejos Westerns que las ruedas de las carretas giraban a una velocidad incorrecta. Digamos, por ejemplo, que una cámara toma el movimiento de la rueda con una frecuencia de 60 cuadros por segundos. Si dicha rueda completase una rotación completa en exactamente la sexagésima (1/60) parte de un segundo, luego, cada imagen se vería igual y como resultado la rueda parecería inmóvil. Si, en cambio, la rueda se acelerara -y por tanto aumentaría su frecuencia de rotación- el resultado se vería como si la rueda estuviese girando lentamente hacia atrás. Esto se debe a que la rueda completará más de una rotación completa entre cada instantánea.
Como acotación al margen, vale la pena observar que gran parte de la música moderna denominada 'glitch' hace un uso artístico y voluntariode la distorsión espectral que el fenómeno del aliasing produce en el audio digital. Si eso es lo que se deseara, Csound es perfectamente capaz de imitar los efectos de aliasing con cualquier frecuencia de muestreo que se utilice.
Lo que se conoce como "Calidad de CD de Audio" implica el uso de una frecuencia de muestreo de 44100Hz (44,1 kHz). Esto significa que con dicha calidad sólo podrán ser representadas correctamente frecuencias de hasta 22050Hz(22,05kHz). Debido a que los seres humanos tenemos un límite superior absoluto de audición de alrededor de 20 kHz, la frecuencia de muestreo de 44,1 kHz supone un estándar razonable.
Todas las computadoras digitales representan los datos como una colección de bits (abreviatura de dígito binario). Un bit es la unidad de información más pequeña posible. Un bit sólo puede estar en uno de dos estados - apagado o encendido, 0 ó 1. El significado del bit - que puede representar casi cualquier cosa - no es lo importante aquí, lo que hay que recordar es que todos los datos del ordenador - un archivo de texto en el disco, un programa en la memoria, un paquete en una red - son en última instancia un conjunto de bits.
Los bits agrupados de a ocho se denominan bytes y un byte por lo general representa un único caracter en el ordenador. Es un término poco usado, pero podría interesarle saber que un nibble es la mitad de un byte (normalmente 4 bits).
Todas las computadoras digitales funcionan en un entorno que tiene sólo dos variables, el 0 y 1. Todos los números en nuestro sistema decimal, por lo tanto, deben ser traducidos a 0 y 1 dentro del sistema binario. Si se piensa en los números binarios como interruptores, con un interruptor pueden se pueden representar hasta dos números diferentes:
0 (OFF) = 0 decimal
1 (ON) = 1 decimal
De este modo, un solo bit representa potencialmente 2 números, dos bits pueden representar 4 números, tres bits representan 8 números, cuatro bits representan 16 números, y así sucesivamente hasta un byte, u ocho bits, que representan (potencialmente) 256 números. Por lo tanto, cada bit añadido duplica la cantidad de números posibles que pueden ser representados. En otras palabras, cuantos más bits tiene a su disposición, tanta más información puede almacenar.
Además de la frecuencia de muestreo, otro atributo importante que puede afectar a la fidelidad de una señal digital es la precisión con la que se conoce cada muestra, es decir, su resolución o granularidad. Cada muestra obtenida se ajusta a un nivel de amplitud específica (la medida de la fuerza para cada tensión). Cada medición de tensión, probablemente tendrá que ser redondeada, hacia arriba o hacia abajo, hacia el valor digital más cercano disponible. El número de niveles disponibles depende de la precisión de la medida en bits, es decir, cuántos dígitos binarios se utilizan para almacenar las muestras. El número de bits que un sistema puede utilizar normalmente se conoce como la resolución de profundidad de bits.
Si la resolución de profundidad de bits es 3, entonces hay 8 niveles posibles de amplitud que podemos utilizar para cada muestra. Esto se puede visualizar mejor en el siguiente diagrama. En cada período de muestreo la tarjeta de sonido traza una amplitud. Como sólo estamos usando un sistema de 3 bits la resolución no es lo suficientemente buena como para trazar la amplitud correcta de cada muestra. Podemos ver en el diagrama que algunas líneas verticales se detienen por encima o por debajo de la señal real. Esto se debe a que nuestra profundidad de bits no es lo suficientemente alta para trazar los niveles de amplitud con una precisión suficiente en cada período del muestreo.
example here for 4, 6, 8, 12, 16 bit of a sine signal ... ... coming in the next release
La resolución estándar para CDs es 16 bits, lo que permite 65.536 niveles diferentes de amplitud, o sea, 32.767 a cada lado del eje cero. Utilizar resoluciones inferiores a 16 bits no es una buena idea, ya que esto tendrá como resultado el añadido de ruido a la señal. El tipo de ruido mencionado se conoce como ruido de cuantificación y es el resultado de obtener valores de amplitud excesivamente redondeados hacia arriba o hacia abajo durante la digitalización. El ruido de cuantificación se hace más evidente cuando se trata de representar sonidos de baja amplitud. Con frecuencia se añade una pequeña cantidad de ruido, conocida como señal de ruido (dither), al audio digital antes de convertirse de nuevo a una señal analógica. La adición de esta señal de ruido reducirá el ruido más perceptible creado por la cuantificación. A medida que se emplean resoluciones de profundidad de bits más altas en el proceso de digitalización la necesidad de agregar dither se reduce. Una regla general es intentar utilizar la tasa de bits más alta disponible.
Muchos músicos electrónicos hacen un uso (artístico) deliberadamente bajo de la cuantificación respecto a la profundidad de bits con el fin de añadir ruido a una señal. El efecto se conoce comúnmente como "bit-crunching" y en Csound es relativamente fácil de implementar.
El proceso completo, como se describe anteriormente, de tomar una señal analógica y convertirla a una señal digital se conoce como conversión analógico-digital, o abreviado en inglés, ADC. Desde luego, la conversión digital-analógico (en inglés, DAC) también es posible de realizar y de hecho así es como oímos nuestra música a través de auriculares o de los altavoces de nuestra PC. Por ejemplo, si uno reproduce un sonido desde Windows Media Player o iTunes, el software enviará una serie de números a la tarjeta de sonido del ordenador. De hecho, lo más probable es que envie 44.100 números por segundo. Si el audio que se está reproduciendo es de 16 bits entonces estos números van a estar comprendidos en el rango que va desde -32.768 a +32.767.
La tarjeta de sonido recibe estos números de la secuencia de audio y los convierte a tensiones de salida, en un rango correcto para ser recibidas por un altavoz. Cuando las tensiones llegan al altavoz causan que el imán del mismo se mueva hacia el interior y hacia el exterior. Esto provoca una perturbación en el aire alrededor del mismo - las compresiones y rarefacciones introducidos al principio de este capítulo - que resultan en lo que percibimos como sonido.
There has been error in communication with Booktype server. Not sure right now where is the problem.
You should refresh this page.