Espectrograma de Áudio
Visualize seu espectro de áudio
Veja o conteúdo completo de frequências de qualquer arquivo de áudio ao longo do tempo. Tamanho FFT, paletas de cores e faixa de dB ajustáveis. Como o Spek, mas diretamente no seu navegador.
Solte seu arquivo de áudio aqui
ou clique para procurar
FLAC
WAV
AIFF
MP3
AAC
OGG
M4A
OPUS
Perguntas Frequentes
Um espectrograma é uma representação visual de como as frequências de um arquivo de áudio mudam ao longo do tempo. Pense nele como um mapa de calor do som. O eixo horizontal representa o tempo (da esquerda para a direita, do início ao fim do arquivo). O eixo vertical representa a frequência (baixo = graves, alto = agudos). A cor em cada ponto mostra o quão alto está aquela frequência naquele momento — cores brilhantes significam alto, escuro significa silencioso.
Linhas horizontais brilhantes indicam tons sustentados em uma frequência específica. Colunas verticais brilhantes indicam explosões repentinas de energia em todas as frequências (como uma batida ou clique). Uma faixa brilhante na parte inferior que permanece constante geralmente é grave ou voz. Um corte abrupto onde toda a cor para de repente (ex.: nada acima de 16 kHz) geralmente indica um formato com perdas como MP3 — arquivos lossless normalmente têm conteúdo até a frequência de Nyquist. O silêncio aparece como áreas escuras/pretas. Você pode dar zoom clicando e arrastando no espectrograma para inspecionar seções específicas mais de perto.
FFT significa Fast Fourier Transform — é a operação matemática que decompõe o áudio em frequências individuais. O tamanho FFT controla o equilíbrio entre detalhe de frequência e detalhe de tempo. Um FFT maior (como 16384) oferece informações de frequência muito precisas — você consegue ver notas individuais com clareza — mas a resolução temporal fica borrada. Um FFT menor (como 1024) oferece resolução temporal precisa — você consegue ver exatamente quando um som começa e termina — mas as informações de frequência são menos detalhadas. 4096 é um bom padrão que equilibra os dois. Experimente alternar entre os tamanhos para ver a diferença.
dB (decibéis) mede o volume de um som. Os controles de faixa de dB determinam quais níveis de volume são visíveis no espectrograma. O controle Mín define o "piso" — tudo mais silencioso que esse valor aparece em preto. O controle Máx define o "teto" — tudo mais alto aparece na cor mais brilhante. Estreitar a faixa (ex.: -80 dB a 0 dB) aumenta o contraste e torna os detalhes mais suaves visíveis. Ampliar a faixa (ex.: -140 dB a 0 dB) mostra mais do ruído de fundo. Se o espectrograma parecer muito escuro, tente aumentar o controle Mín. Se parecer saturado, tente diminuí-lo.
SoX (padrão) usa uma paleta quente que vai do preto ao roxo, vermelho, laranja, amarelo e branco. É inspirada na ferramenta de áudio SoX e oferece bom contraste perceptual em toda a faixa. Spectrum usa uma paleta arco-íris clássica — azul para silêncio, passando por ciano, verde, amarelo, até vermelho para o mais alto. É semelhante ao que muitas ferramentas científicas usam. Mono é uma escala de cinza simples — preto para silêncio, branco para o mais alto. É limpa e fácil de ler, mas mostra menos detalhes na faixa intermediária. Escolha a que facilite mais a visualização dos detalhes que lhe interessam.
Uma função de janela é aplicada a cada trecho de áudio antes de executar o FFT. Ela controla o equilíbrio entre precisão de frequência e vazamento espectral (borramento indesejado entre frequências adjacentes). Hann (padrão) é a escolha mais comum — oferece bom equilíbrio e funciona bem para a maioria dos áudios. Hamming é semelhante ao Hann, mas com um pouco menos de vazamento ao custo de lóbulos principais mais largos — útil quando você precisa de separação mais limpa entre frequências próximas. Blackman-Harris tem a melhor supressão de lóbulos laterais dos três — produz a separação de frequências mais limpa com vazamento mínimo, mas cada faixa de frequência aparece ligeiramente mais larga. Para a maioria da música e uso geral, Hann é suficiente. Experimente Blackman-Harris se quiser o maior isolamento de frequências.
Linear (padrão) distribui todas as frequências uniformemente — 1 kHz ocupa o mesmo espaço vertical que 10 kHz. É o que o Spek e a maioria dos analisadores espectrais usam. Oferece uma visão clara do conteúdo de alta frequência e facilita detectar cortes de áudio com perdas. Logarítmica dá mais espaço às frequências baixas, correspondendo a como percebemos o tom — o salto de 100 Hz a 200 Hz soa igual ao de 1000 Hz a 2000 Hz (ambos são uma oitava). Isso torna a escala logarítmica muito melhor para analisar música, pois a maior parte do conteúdo musical (voz, grave, guitarras, bateria) está abaixo de 5 kHz. Use Linear para inspecionar o espectro completo ou verificar cortes de áudio com perdas. Use Logarítmica quando quiser ver detalhes musicais e separação de notas.
Para arquivos de áudio estéreo, o seletor de canal permite visualizar o espectrograma do canal Esquerdo apenas, do canal Direito apenas, ou uma Mixagem de ambos (média). É útil para detectar diferenças entre canais — por exemplo, alguns instrumentos podem estar panoramizados para um lado, ou um canal pode conter artefatos que o outro não tem. O seletor só aparece quando você carrega um arquivo estéreo.
Clique e arraste sobre o espectrograma para selecionar uma área retangular — a visualização dará zoom nessa região. Você pode dar zoom várias vezes para aproximar mais. Os eixos de tempo e frequência serão atualizados para mostrar o intervalo ampliado, e uma barra de informações de zoom aparecerá mostrando o intervalo exato. Para voltar à visão completa, faça duplo clique no espectrograma ou clique no botão Redefinir Zoom.
Sim. Formatos com perdas como MP3 e AAC cortam frequências altas para economizar espaço. Um MP3 a 128 kbps normalmente não tem conteúdo acima de ~16 kHz. Um MP3 a 320 kbps corta em torno de 20 kHz. Você verá uma linha horizontal nítida onde toda a cor para abruptamente — tudo acima é preto. Em contrapartida, um arquivo lossless genuíno (FLAC, WAV) normalmente mostra conteúdo até a frequência de Nyquist (metade do sample rate). Se alguém afirmar que um arquivo é "hi-res" mas o espectrograma mostrar um corte duro em 16 kHz, provavelmente foi remasterizado a partir de uma fonte com perdas.
Não. Todo o processamento — decodificação, análise FFT e renderização — ocorre inteiramente no seu navegador usando a Web Audio API e JavaScript. Seus arquivos de áudio nunca saem do seu dispositivo e nenhum dado é enviado a qualquer servidor. Você pode até usar esta ferramenta offline após o carregamento da página.