Ljud grundläggande kunskaper och kodningsprinciper

1. Grundläggande begrepp

1) Bithastighet: anger hur många bitar per sekund den kodade (komprimerade) ljuddata behöver representeras, och enheten är vanligtvis kbps.

2) Ljud och intensitet: Ljudets subjektiva attribut. Loudness indikerar hur starkt ett ljud låter. Ljudstyrkan varierar främst med ljudets intensitet men påverkas också av frekvensen. Generellt sett är rena mittfrekvensljud bättre än rena lågfrekventa och högfrekventa ljud.

3) Samplings- och samplingsfrekvens: Sampling är att omvandla en kontinuerlig tidssignal till en diskret digital signal. Samplingsfrekvensen avser hur många prover som samlas in per sekund.

Nyquists samplingslag: När samplingshastigheten är större än eller lika med 2 gånger den högsta frekvenskomponenten i den kontinuerliga signalen kan den samplade signalen användas för att perfekt rekonstruera den ursprungliga kontinuerliga signalen.

2. vanliga ljudformat

1) WAV-format är ett ljudfilformat utvecklat av Microsoft, även kallat vågljudfil. Det är det tidigaste digitala ljudformatet, som allmänt stöds av Windows-plattformen och dess applikationer, och har låg komprimeringshastighet.

2) MIDI är en förkortning av Musical Instrument Digital Interface, även känd som Musical Instrument Digital Interface, som är en enhetlig internationell standard för digital musik / elektroniska syntetiska musikinstrument. Den definierar hur datorprogram, digitala syntar och andra elektroniska enheter utbyter musiksignaler och specificerar dataöverföringsprotokollet mellan kablar och hårdvara och enheter som ansluter elektroniska musikinstrument från olika tillverkare till datorer och kan simulera ljudet av flera instrument. En MIDI-fil är en fil i MIDI-format, och vissa kommandon lagras i MIDI-filen. Skicka dessa instruktioner till ljudkortet och ljudkortet syntetiserar ljudet enligt instruktionerna.

3) MP3: s fullständiga namn är MPEG-1 Audio Layer 3, som slogs samman i MPEG-specifikationen 1992. MP3 kan komprimera digitala ljudfiler med hög ljudkvalitet och låg samplingsfrekvens. Den vanligaste applikationen.

4) MP3Pro utvecklades av Swedish Coding Technology Company, som innehåller två viktiga teknologier: den ena är den unika avkodningstekniken från Coding Technology Company, och den andra är integrationen av MP3-patentinnehavaren French Thomson Multimedia Company och tyska Fraunhofer En avkodningsteknik som forskats gemensamt av Circuit Association. MP3Pro kan förbättra den ursprungliga MP3-ljudkvaliteten utan att i grunden ändra filstorleken. Det kan bibehålla ljudkvaliteten före komprimering i största utsträckning samtidigt som ljudfiler komprimeras med en lägre bithastighet.

5) MP3Pro utvecklades av Swedish Coding Technology Company, som innehåller två viktiga teknologier: den ena är den unika avkodningstekniken från Coding Technology Company, och den andra är integrationen av MP3-patentinnehavaren French Thomson Multimedia Company och tyska Fraunhofer En avkodningsteknik som forskats gemensamt av Circuit Association. MP3Pro kan förbättra den ursprungliga MP3-ljudkvaliteten utan att i grunden ändra filstorleken. Det kan bibehålla ljudkvaliteten före komprimering i största utsträckning samtidigt som ljudfiler komprimeras med en lägre bithastighet.

6) WMA (Windows Media Audio) är Microsofts mästerverk inom Internet-ljud och -video. WMA-formatet uppnår en högre komprimeringshastighet genom att minska datatrafiken men bibehålla ljudkvaliteten. Kompressionshastigheten kan i allmänhet nå 1:18. Dessutom kan WMA också skydda upphovsrätten genom DRM (Digital Rights Management).

7) RealAudio är ett filformat som lanseras av Real Networks. Den största funktionen är att den kan överföra ljudinformation i realtid, särskilt när nätverkshastigheten är låg, kan den fortfarande överföra data smidigt, så RealAudio är främst lämplig för nätverk Spela online på. De nuvarande RealAudio-filformaten inkluderar huvudsakligen RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured), etc. Gemensamt för dessa filer är att ljudkvaliteten förändras med skillnaden i nätverksbandbredd. Under förutsättningen att de flesta hör ett jämnt ljud kan lyssnare med en bredare bandbredd få bättre ljudkvalitet.

8) Audible har fyra olika format: Audible1, 2, 3, 4. Audible.com-webbplatsen säljer främst ljudböcker på Internet och ger skydd för de varor och filer de säljer genom ett av de fyra Audible.com-dedikerade ljudformaten . Varje format tar i huvudsak hänsyn till ljudkällan och den lyssningsenhet som används. Format 1, 2 och 3 använder olika nivåer av röstkomprimering, medan format 4 använder en lägre samplingsfrekvens och samma avkodningsmetod som MP3. Den resulterande rösten är tydligare och kan laddas ner mer effektivt från Internet. Audible använder sitt eget skrivbordsuppspelningsverktyg, vilket är Audible Manager. Med den här spelaren kan du spela filer i hörbart format som lagras på en PC eller överföras till en bärbar spelare.

9) AAC är egentligen en förkortning för Advanced Audio Coding. AAC är ett ljudformat som utvecklats gemensamt av Fraunhofer IIS-A, Dolby och AT&T. Det är en del av MPEG-2-specifikationen. Algoritmen som används av AAC skiljer sig från den för MP3. AAC kombinerar andra funktioner för att förbättra kodningseffektiviteten. AAC: s ljudalgoritm överstiger långt några tidigare komprimeringsalgoritmer (som MP3, etc.) i komprimeringsfunktioner. Den stöder också upp till 48 ljudspår, 15 lågfrekventa ljudspår, fler samplingsfrekvenser och bithastigheter, flerspråkskompatibilitet och högre avkodningseffektivitet. Kort sagt kan AAC ge bättre ljudkvalitet under förutsättning att det är 30% mindre än MP3-filer.

10) Ogg Vorbis är ett nytt ljudkomprimeringsformat, som liknar befintliga musikformat som MP3. Men en skillnad är att det är helt gratis, öppet och utan patentbegränsningar. Vorbis är namnet på denna ljudkomprimeringsmekanism, och Ogg är namnet på ett projekt som avser att utforma ett helt öppet multimediasystem. VORBIS är också komprimerad med förlust, men den använder mer avancerade akustiska modeller för att minska förlusten. Därför låter OGG kodad med samma bithastighet bättre än MP3.

11) APE är ett förlustfritt komprimerat ljudformat, under förutsättning att ljudkvaliteten inte minskar, komprimeras storleken till hälften av den traditionella WAV-filen med förlustfritt format.

12) FLAC är en förkortning av Free Lossless Audio Codec, en uppsättning välkända gratis ljudförlustfria kompressionskoder, som kännetecknas av förlustfri komprimering.

3. den grundläggande principen för ljudkodning

Talkodning är dedikerad till att minska kanalbandbredden som krävs för överföring samtidigt som den höga kvaliteten på ingångstalen bibehålls.

Målet med talkodning är att utforma en kodare med låg komplexitet för att uppnå dataöverföring av hög kvalitet med lägsta möjliga bithastighet.

1) Tyst tröskelkurva: Tröskeln vid vilken det mänskliga örat kan höra ljud vid olika frekvenser endast i en lugn miljö.

2) Kritiskt frekvensband

Eftersom det mänskliga örat har olika upplösningar för olika frekvenser delar MPEG1 / Audio det märkbara frekvensområdet inom 22 kHz i 23 ~ 26 kritiska frekvensband enligt olika kodskikt och olika samplingsfrekvenser. Följande bild visar mittfrekvensen och bandbredden för det ideala kritiska frekvensbandet. Som framgår av figuren har det mänskliga örat en bättre upplösning av lågfrekventa

3) Maskeringseffekt i frekvensdomänen: En signal med en större amplitud maskerar en signal med en liknande frekvens och en mindre amplitud, som visas i figuren nedan:

4) Maskeringseffekt i tidsdomänen: Om det uppstår två ljud under en kort tidsperiod kommer ljudet med en större SPL (ljudtrycksnivå) att maskera ljudet med en mindre SPL. Tidsdomänmaskeringseffekten delas in i framåtmaskering (förmaskering) och bakåtmaskering (eftermaskering). Efter maskeringen kommer tiden att vara längre, ungefär tio gånger den före maskeringen.

Tidsdomänmaskeringseffekten hjälper till att eliminera pre-ekot.

4. de grundläggande metoderna för kodning

1) Kvantiserare och kvantiserare

Kvantisering och kvantiserare: Kvantisering omvandlar en kontinuerlig signal under diskret tid till en diskret signal under diskret tid. Vanliga kvantiserare är: enhetlig kvantiserare, logaritmisk kvantiserare och icke-enhetlig kvantiserare. Målet som kvantiseringsprocessen eftersträvar är att minimera kvantiseringsfelet och minimera komplexiteten hos kvantiseraren (de två är i sig en motsägelse).

(A) Uniform kvantiserare: den enklaste, sämsta prestandan, endast lämplig för telefonröst.

(B) Logaritmisk kvantiserare: Den är mer komplicerad än enhetlig kvantiserare och enkel att implementera, och dess prestanda är bättre än enhetlig kvantiserare.

(C) Ojämn kvantiserare: Enligt fördelningen av signalen, designa kvantiseraren. Detaljerad kvantifiering utförs där signalen är tät och grov kvantifiering utförs där signalen är gles.

2) Röstkodare

Det finns tre typer av talkodare: (a) Waveform-kodare; (b) Vokoder; (c) Hybridkodare.

Vågformskodaren syftar till att konstruera en analog vågform inklusive bakgrundsbrusarket. Med alla ingångssignaler kommer den att producera högkvalitativa sampel och konsumera en hög bithastighet. Vokodern återskapar inte den ursprungliga vågformen. Denna uppsättning kodare extraherar en uppsättning parametrar som skickas till den mottagande änden för att härleda röstgenereringsmodellen. Röstkvaliteten för vocoder är inte tillräckligt bra. Hybridkodare, som innehåller fördelarna med vågformskodare och ekolod.

2.1 Vågformsgivare

Vågformskodarens utformning är ofta oberoende av signalen. Så det är lämpligt för kodning av olika signaler och är inte begränsat till tal.

1) Tidsdomänkodning

a) PCM: pulskodsmodulering, är den enklaste kodningsmetoden. Det är bara diskretiseringen och kvantiseringen av signalen, och logaritmisering används ofta.

b) DPCM: differentiell pulskodsmodulering, som bara kodar skillnaden mellan prover. Det föregående eller flera exemplen används för att förutsäga det aktuella samplingsvärdet. Ju fler prover som används för att göra förutsägelser, desto mer exakt är det förutsagda värdet. Skillnaden mellan det verkliga värdet och det förutspådda värdet kallas rest, vilket är objektet för kodning.

c) ADPCM: adaptiv differentialpulskodmodulering, adaptiv differentialpulskod. Det vill säga, på grundval av DPCM, justeras kvantiseraren och prediktorn på lämpligt sätt i enlighet med ändringarna av signalen, så att det förutspådda värdet är närmare den verkliga signalen, resten är mindre och kompressionseffektiviteten är högre.

(2) Frekvensdomänkodning

Frekvensdominkodning är att sönderdela en signal i en serie olika frekvenselement och utföra oberoende kodning.

a) Sub-band-kodning: Sub-band-kodning är den enklaste frekvensdomän-kodningstekniken. Det är en teknik som omvandlar originalsignalen från tidsdomänen till frekvensdomänen, sedan delar den upp i flera delband och utför digital kodning på dem. Den använder en bandpassfilter (BPF) -grupp för att dela originalsignalen i flera (till exempel m) delband (kallas delband). För varje delband genom moduleringskaraktäristika som motsvarar amplitudmodulering med enkel sidoband, flytta varje delband till nära nollfrekvens, passera genom BPF (totalt m) och överför sedan varje delband med en föreskriven hastighet ( Nyquist-hastighet) Sub-bandets utsignal samplas och det samplade värdet kodas vanligtvis digitalt och m digitala kodare ställs in. Skicka varje digital kodad signal till multiplexern och slutligen mata ut den delbandskodade dataströmmen.

För olika delband kan olika kvantiseringsmetoder användas och olika antal bitar kan allokeras till delbanden enligt den mänskliga öronuppfattningsmodellen.

b) transformeringskodning: DCT-kodning.

5. Sångare

Channel vocoder: Använder det mänskliga örat för okänslighet för fas.

homomorf vocoder: kan effektivt bearbeta syntetiska signaler.

Formant vocoder: Det mesta av röstsignalens information ligger på formantens position och bandbredd.

linjär prediktiv vocoder: Den vanligaste vocoder.

6. Hybridkodare

Vågformskodaren försöker bevara vågformen för den kodade signalen och kan ge högkvalitativt tal med en medium bithastighet (32 kbps), men den kan inte tillämpas vid tillfällen med låg bithastighet. Vokodern försöker generera en signal som hör på samma sätt som den kodade signalen och kan tillhandahålla förståeligt tal med låg bithastighet, men det resulterande talet låter onaturligt. Hybridkodaren kombinerar fördelarna med båda.

RELP: På basis av linjär förutsägelse kodas restprodukten. Mekanismen är: endast sända en liten del av resterna och rekonstruera alla rester i den mottagande änden (kopiera resterna av basbandet).

MPC: kodning av flera pulser, som tar bort korrelationen mellan resterna, och används för att kompensera för vokoders enkla klassificering av röster i röstade och icke-röstade utan brister i mellanstatus.

CELP: kodbok upphetsad linjär förutsägelse, som använder vocal tract prediction och kaskad av pitch prediktor för att bättre approximera originalsignalen.

MBE: multiband excitation, syftet är att undvika ett stort antal CELP-beräkningar, för att uppnå högre kvalitet än vocoder.