Wave / Wav / PCM
Das WAVE-Format wurde von Microsoft entwickelt und ist neben MP3 das gängigste Dateiformat zur Speicherung von Audio auf dem PC. Auch in Telefonanlagen kommt es zum Einsatz. Eine Wave-Datei wird durch die Erweiterung .wav gekennzeichnet. Neben den unkomprimierten Audio-Rohdaten, enthält das Wave-Format Informationen zu: Anzahl der Spuren (Mono oder Stereo), Abtastrate und Bittiefe.
Damit Klänge auf einem Computer gespeichert werden können, müssen sie digitalisiert werden. Das nennt sich Sampling. Dabei werden die kontinuierlichen Klang-Wellen mit einer bestimmten Frequenz, der Sampling-Rate abgetastet. Diese Abtastrate wird in Kilohertz angegeben. Für das Wave-Format wird standardmäßig eine Abtastfrequenz von 44,1 kHz verwendet. Die Qualität des digitalen Sounds hängt aber auch von der Sampling-Tiefe ab, die angibt, mit wie viel Bits ein Klangwert gespeichert wird. Üblich sind 16 Bit.
In der Telekommunikation kommen allerdings geringere Abtastraten und Bit-Werte zum Einsatz. Meistens 08 kHz / 08 Bit oder 08 kHz / 16 Bit.
Manchmal wird bei Wave-Dateien zusätzlich die Abkürzung PCM (Pulscodemodulation) angegeben. PCM ist ein Modulationsverfahren, das analoge Signale in binären Code umwandelt. PCM-Signale lassen sich einfach speichern, verarbeiten und übertragen.
Mp3
MP3 ist für Audio-Dateien inzwischen eine Art Standard und kommt auch im Bereich der Telekommunikation, in diversen Telefonanlagen zum Einsatz.
MP3 steht für MPEG Audio Layer 3 (MPEG = Motion Pictures Expert Group). Das MP3-Audioformat wurde von der Fraunhofer Gesellschaft entwickelt und basiert auf psychoakustischer Datenreduktion. Mit einem effizienten Kompressionsverfahren werden sich überlagernde Töne und Frequenzen entfernt, die für das menschliche Ohr nicht hörbar sind.
MP3 benötigt nur etwa 10 Prozent des Speicherplatzes einer konventionellen Wave-Datei (WAV). Dies ermöglicht eine schnelle Datenübertragung bei Web-Streamings und die Speicherung großer Musikmengen auf kleinem Speicherplatz. Die Datenrate reicht von 8 bis 320 kbit/s. Je niedriger die Datenrate, desto geringer der benötigte Speicherplatz.
Das MP3-Format wurde ursprünglich durch halblegale Musiktauschbörsen wie Napster populär und war der Musikindustrie ein Dorn im Auge. Streaming-Plattformen wie Spotify und Apple Music reduzierten die Musikpiraterie im Internet und damit auch die Umsatzeinbrüche der Musikindustrie. Heute ist das Streaming eine wichtige Einkommensquelle für Plattenfirmen und Musikverlage.
Für anspruchsvollere Hörer war MP3 nie eine Option. Denn die Datenkompression führt zu einer Verschlechterung der Klangqualität, vor allem bei kleineren Datenraten. Da die Übertragungsgeschwindigkeit im Web permanent steigt, wird deshalb mittlerweile auch mit hochwertigen und verlustfreien Formaten mit höherer Auflösung gestreamt.
In Sachen Telekommunikation und Telefonanlage schneidet MP3 im Vergleich zu anderen typischen Formaten und Auflösungen allerdings klanglich sehr gut ab.
µ-law
Beim µ-Law-Verfahren (manchmal auch mu-law oder ulaw geschrieben) handelt es sich um ein Digitalisierungsverfahren für analoge Audiosignale, das hauptsächlich in digitalen 8-Bit-PCM-Telekommunikationssystemen in Nordamerika und Japan verwendet wird. Das Pendant a-law kommt hauptsächlich in Europa zum Einsatz.
Ähnlich wie beim A-law-Verfahren, arbeitet das µ-law-Verfahren mit einem speziellen Algorithmus, um den Dynamikbereich eines Audiosignals vor der digitalen Übertragung zu erhöhen. Damit wird ein besseres Signal-Rausch-Verhältnis erzielt.
Die Vergrößerung des Dynamikbereichs erfolgt bei der µ-Law- Kompression, indem das Signal zunächst mit höherer Bitrate abgetastet wird, um die Daten anschließend auf eine niedrigere Bitrate zu komprimieren. Der Empfänger eines solchen Signals arbeitet genau entgegengesetzt und stellt die ursprüngliche höhere Bitrate wieder her.
Die Bestimmung der Bitzahl ist im µ-Law-Verfahren schwierig, da die Quantisierungsproben logarithmisch mit 8 Bit codiert werden, ihr Dynamikbereich hingegen linear mit 13 Bit.
a-law
Das A-Law-Verfahren wird für die Dynamikkompression von Audiosignalen eingesetzt. Es ist in der Empfehlung G.711 der Internationalen Fernmeldeunion (ITU-T) standardisiert. Die Dynamikkompression dient der Verbesserung des Störspannungsabstands (SNR) bei gleichen Übertragungsbedingungen.
G.711 ist eine Richtlinie der ITU-T zur Digitalisierung analoger Audiosignale mittels Puls-Code-Modulation (PCM). Einsatzbereiche dieses Codecs sind die klassische Festnetz-Telefonie und IP-Telefonie im A-law- oder μ-law-Digitalisierungsverfahren (PCMA bzw. PCMU).
Der a-law-Algorithmus wird in europäischen digitalen Kommunikationssystemen (Telefon / Telefonanlage) eingesetzt, um den Dynamikbereich eines analogen Signals, meist einer Stimme, für die Digitalisierung zu optimieren. A-Law ist dem in Nordamerika und Japan verwendeten µ-Law (auch Mu-Law oder ulaw) -Algorithmus ähnlich.
Das Verfahren verwendet eine logarithmische Dynamikkennlinie, die besonders bei niedrigen Eingangspegeln eine hohe Dynamik aufweist und bei hohen Eingangspegeln eine sehr geringe. Dadurch wird das Rauschen bei geringen Pegeln, also bei leisen Tönen, reduziert.
G.722 (HD Voice)
Beim Einsatz des Codecs G.722 spricht man auch von HD-Voice (High Definition Voice) oder HD-Telefonie. „High Definition“ deshalb, weil die Bandbreite 7 kHz beträgt, bei einer Abtastrate von 16 kHz. Damit verbessert sich die Sprachqualität bei Telefonverbindungen und ist um ein Vielfaches besser als beim Vorgänger G.711. Grund für diesen HD-Effekt, ist in erster Linie ein neues Kompressionsverfahren.
Je nach dem, wie hoch die Übertragungsrate und der Qualitätsbedarf ist, kann der Bandbreitenbedarf bei 48, 56 oder 64 kBit/s liegen. In VoIP-Netzen ist G.722 weit verbreitet. Auch in den Endgeräten vieler Hersteller ist der Codec implementiert, z.B. in den aktuellen Modellen der Fritzbox.
Die Sprachqualität erreicht die Qualität eines UKW-Radios und wird zum Beispiel für CAT-iq (DECT) verwendet. Diese höhere Sprachqualität lässt sich ausschließlich mit neuen, kompatiblen Telefonen nutzen. Normalerweise auch nur mit DECT-Telefonen, die CAT-iq HD-Telefonie mit G.722 unterstützen.
G.711 / PCM - Pulse Code Modulation
G.711 ist der PCM-Standard (Pulse Code Modulation) für IP-PBX-Anbieter (Internet Protocol Private Branch Exchange) und auch PSTN (Public Switched Telephone Network, Festnetz).
Der Algorithmus wurde in den 1970er Jahren von Bell Systems entwickelt. 1988 hat ihn die ITU (International Telecommunication Union) offiziell standardisiert. Heute kommt G.711 bei VoIP (Voice over Internet Protocol) zum Einsatz, sprich: bei der Internet-Telefonie.
G.711 digitalisiert analoge Sprachsignale und benötigt eine geringe Rechenleistung für die Analog-Digital-Wandlung. Bei 8.000 Abtastungen pro Sekunde (Sampling), mit einer Quantisierung von 8 Bit pro Abtastung, ergibt sich eine Bitrate von 64 kBit pro Sekunde (nach µ-Law/a-Law). Damit hat der Codec eine Bandbreite von nur 3,1 kHz (Fernsprechkanal).
G.711 (PCM) ist der kleinste gemeinsame Nenner, was die Sprachqualität angeht. Werden die Sprachdaten mit einem anderen Codec komprimiert, wird G.711 gerne zum Vergleich der Qualität herangezogen.
VoIP-Anbieter setzen in der Regel G.711 ein, da dies eine einfache Durchleitung der Sprachdaten vom Festnetz ins IP-Netz und umgekehrt ermöglicht. Eine Umkodierung der Sprachdaten ist dabei nicht notwendig.
Codec G.722.2 (HD Voice)
G.722.2 ist die Wideband-Version des Adaptive Multirate Codec (AMR-WB). Trotz der Namensähnlichkeit, hat G.722.2 nur den übertragenen Tonumfang mit G.722 gemeinsam.
AMR-WB ist auf die Übertragung im Mobilfunknetz zugeschnitten und komprimiert die Sprache sehr stark. AMR-WB tastet das Sprachsignal mit 16 kHz ab und quantisiert es mit 14 Bit. Die Übertragungsbandbreite ist variabel und liegt zwischen 6,6 und 24 kBit/s. In Gesprächspausen kann die Datenrate auch auf 1,75 kBit/s fallen.
Der lizenzpflichtige AMR-WB-Codec G.722.2 ist für Mobilfunk optimiert und hat sich deshalb in diesem Bereich durchgesetzt. Auch bei Telefonie im LTE-Netz (VoLTE) wird HD-Telefonie über AMR-WB unterstützt. Festnetz- und VoIP-Geräte unterstützen dagegen fast nur den lizenzfreien Codec G.722.
Bisher gibt es kaum Endgeräte, die AMR-WB und G.722 gleichzeitig anbieten. Die meisten VoIP-Endgeräte (z. B. Gigaset IP, Fritz!Box) unterstützen G.722, aber kein AMR-WB. Ein direktes HD-Gespräch zwischen Geräten kommt daher oft nur über geeignete Gateways der Netzbetreiber zustande, die das notwendige Transcoding vornehmen.
Codec G.729 / G.729A / G.729B
G.729 ist ein seit Anfang 2017 lizenzgebührenfreier Audio-Codec zur Komprimierung von Sprache in digitale Signale. G.729 ist je nach verwendeter Variante vergleichsweise rechenaufwändig. Die Varianten G.729A und G.729B hingegen, werden aufgrund ihrer starken Komprimierung bei gleichzeitig geringem Rechenaufwand bei Internet-Telefonie eingesetzt.
Für VoIP-Anwendungen wird der Codec G.729A verwendet. Er ist die Grundlage für eine gute Sprachqualität in VoIP-Verbindungen. Unter Berücksichtigung des IP-Overheads, der Sprachkomprimierung und der Sprechpausenunterdrückung wird eine Bandbreite von ca. 10 kbit/s (1,25 kByte/s) pro Sprachverbindung benötigt. Diese Bandbreite muss das Datennetz für jedes Gespräch gewährleisten.
Audiosignale abseits der menschlichen Sprache kann dieser Codec nur schlecht verarbeiten. Das trifft z.B. auch auf die in der Analogtelefonie genutzten Multifrequenztöne zu. Deshalb werden die Multifrequenztöne aus dem Signal herausgefiltert und separat im Informationskanal übertragen („outband“). Außerdem unterdrückt G.729 Sprachpausen. Damit dies nicht wie ein Verbindungsabbruch klingt, füllt der Decoder die Sprachpausen mit sogenanntem Komfortrauschen.
Audio Codecs (VOIP) / ITU-T G Series
Codec | Encoding | MOS | Bandbreite | Sprachqualität |
---|---|---|---|---|
G.711 | PCM | 4,10 | 46 oder 64 kbit/s | ISDN |
G.722 | SB-ADPCM | - | 48 bis 64 kbit/s | HD |
G.722.2 | AMR-WB |
- | 1,75 bis 24 kbit/s | HD |
G.723.1 | MP-MLQ | 3,90 | 5,6 bis 6,3 kbit/s | Gut |
G.723 | A-CELP |
3,65 | 5,3 kbit/s | - |
G.726 | AD-PCM |
3,85 | 16 bis 40 kbit/s | Mobilfunk |
G.728 | LD-CELP | 3,61 | 16 kbit/s | ISDN |
G.729 | CS-ACELP | 3,92 | 8 kbit/s | - |
G.729A | CS-ACELP | 3,70 | 8 kbit/s | Besser als G.723.1 |
Was bedeutet MOS?
Um Codecs miteinander zu vergleichen, wurde der Mean Opinion Score „MOS“ erstellt. Dieses Messverfahren dient als Richtwert. Mit dem MOS wird die Audio-Qualität der Codecs „benotet“, abhängig davon, wie nah sie an die menschliche Stimme im Original heran kommen. Die Skala reicht von 1 bis 5. Dabei steht 1 für mangelhaft und 5 für ausgezeichnet. Werte über 4 entsprechen der Qualität im ISDN Netz.
Noch keine Lösung?
Wir kennen uns aus. Telefonanlage, Cloud, Website, Callflow & Co. Gerne beraten wir Sie persönlich & kostenfrei.
Technik-Upgrade?
Wir kümmern uns bei Bedarf auch um die Vermittlung an einen zuverlässigen TK-Partner in Ihrer Nähe.