Die virtuelle Kopie des räumlichen Schallfeldes / Kapitel 3
3. Wellenfeldsynthese
Die Wellenfeldsynthese (WFS) ist ein räumliches Audiowiedergabeverfahren. Es beruht nicht auf der Wahrnehmung von Phantomschallquellen, sondern das Schallfeld wird physikalisch rekonstruiert. Bei der Synthese wird die Wellenfront einer natürlichen Schallquelle entsprechend Huygens Prinzip aus einzelnen Elementarwellen zusammengesetzt. Eine Computersynthese lenkt dazu jede der in einer Lautsprecherzeile oder- fläche angeordneten Membranen genau in dem Moment aus, in dem die Wellenfront der virtuellen Quelle ihren jeweiligen Raumpunkt durchlaufen würde. So wird die ursprüngliche Wellenfront physikalisch wiederhergestellt:
Mathematische Grundlagen
Prof. Berkhout entwickelte das Verfahren 1988 an der Universität Delft. Mathematische Grundlage ist das aus der Wellengleichung und dem Green´schen Theorem abgeleitete Kirchhoff- Helmholtz- Integral.

Danach ist der Schalldruck in einem beliebigen Punkt innerhalb eines quellfreien Volumens determiniert, wenn Schalldruck und Schallschnelle auf seiner Oberfläche bekannt sind. Der erste Integrand repräsentiert eine Verteilung von Dipolquellen (dem Druck an der Oberfläche S), der Zweite eine Verteilung von Monopolquellen ( der Normalkomponente der Teilchengeschwindigkeit ) entlang der Oberfläche S. Während leicht nachzuvollziehen ist, dass der Schalldruck in einem Raumpunkt von nichts anderem abhängt, als von der Schallverteilung in seiner Umgebung, ist der Umkehrschluss die Grundlage für die physikalische Rekonstruktion des Schallfeldes: Aus bekannten Werten für die Sekundärquellen lassen sich die Schalldruckverhältnisse innerhalb eines quellfreien Volumens vollständig rekonstruieren! Dieser Gedanke ist Grundlage für die Holofonie.
Theoretisch ist es nach diesem Prinzip möglich, jedes beliebige Schallfeld durch Sekundärquellen auf einer Oberfläche physikalisch vollständig wiederherzustellen. Die Amplituden für die einzelnen Sekundärquellen lassen sich aus den Signalen und der Position der Primärquellen berechnen. Trotzdem ist die praktische Umsetzung dieses Ansatzes kaum möglich. Erstens müssten die einzelnen Sekundärquellen kleiner sein als die Wellenlänge der höchsten Übertragungsfrequenz. Zweitens wäre die gesamte Oberfläche des Volumens, also alle Wände des Abhörraumes, lückenlos mit diesen diskret angesteuerten Schallquellen zu bestücken. Drittens müsste das Volumen quellfrei sein. Das lässt sich nur in einem Schalltoten Raum realisieren, weil sonst Spiegelschallquellen entstehen würden. Ein wenig praxistauglicher Ansatz! Darum mussten Wege gefunden werden, das Verfahren zu vereinfachen. Nach Rayleigh II ist der Schalldruck im Punkt A innerhalb eines Halbraumes bestimmt, wenn nur die Druckverteilung auf einer Ebene Z bekannt ist.
![]()
Auf beiden Seiten dieser Ebene entsteht dabei ein Schallfeld. Wird das rückseitige Schallfeld unterdrückt, so entsteht eine Halbraumabstrahlung.
Physikalisches Prinzip
Nach dem Huygenschen Prinzip kann jeder Punkt einer Wellenfront als Ausgangspunkt einer Elementarwelle betrachtet werden. Deshalb kann eine Wellenfront auch aus solchen Elementarwellen vollständig synthetisiert werden. Sind diese Sekundärquellen entsprechend Rayleigh II auf einer Ebene angeordnet, so können sie virtuelle Schallquellen nach dem Prinzip des " akustischen Vorhangs " erzeugen; einer Idee, die einige Ingenieure schon in den dreißiger Jahren hatten:
Anschaulich kann diese Ebene wie eine durchlöcherte Wand betrachtet werden, die den Schall ungehindert hundurchlässt. Wird nun jedes dieser Löcher mit einem Lautsprecher verstopft, der von seinem zugehörigen Mikrofon auf der anderen Seite der Wand angesteuert wird, so hat sich an diesen Verhältnissen grundsätzlich nichts geändert. Wenn ausreichend viele Elementarwellen zu dieser Wellenfront zusammengesetzt werden, so unterscheidet sich die synthetisierte Wellenfront nicht von der natürlichen Wellenfront. Ihr Ausgangspunkt ist jedoch eine virtuelle Schallquelle. Sie hat die gleichen Eigenschaften, wie eine natürliche Schallquelle an dieser Position. Die Idee für diese perfekte Rekonstruktion der Wellenfront wurde in den dreißiger Jahren nur deshalb aufgegeben, weil man es niemals für möglich gehalten hätte, dass je eine solch hohe Anzahl von Übertragungskanälen zur Verfügung stehen wird. Auch heute wäre das noch ein Problem. Genauer betrachtet unterscheidet sich das Signal an den einzelnen " Löchern " jedoch nicht in seiner Signalform, sondern wegen des unterschiedlichen Weges zum jeweiligen " Loch " nur in seinem zeitlichen Eintreffen und in der Amplitude. Beim Stand der Technik der digitalen Signalprozessoren liegt es heute nahe, für jede virtuelle Schallquelle nur ein einziges Monosignal zu übertragen und die Verzögerungen elektronisch zu erzeugen. Die Werte dafür können leicht aus dem Weg berechnet werden, den die virtuelle Schallquelle zum jeweiligen Lautsprecher hat.
Im Gegensatz zu den Phantomschallquellen der herkömmlichen Übertragungsverfahren wandert diese virtuelle Schallquelle nicht mehr mit, wenn sich der Zuhörer im Wiedergaberaum bewegt. Wie eine reale Quelle lokalisieren wir sie immer an ihrem virtuellen Ausgangspunkt. Der kann vor oder hinter der Lautsprecherfront liegen. Konvexe oder auch konkave Wellenfronten können erzeugt werden. Natürlich lassen sich mit der Lautsprecheranordnung auch mehrere virtuelle Schallquellen simultan erzeugen. Den ersten schallstarken Reflexionen muss dazu nur ein Ausgangspunkt zugeordnet werden , jede separate Quelle braucht aber ihren eigenen Übertragungskanal und ihre Position muss für die Synthese bekannt sein . Diese kann nicht, wie beim Ansatz der Holofonie, an beliebigen Punkten im Abhörraum sein. Der Zuhörer darf sich nicht zwischen Lautsprecheranordnung und virtueller Quelle befinden, in diesem Bereich erzeugen die konkaven Wellenfronten Laufzeitfehler mit deutlichen Fehlortungen.
Deshalb lässt sich mit solch einer Lautsprecherwand allein keine " umhüllende " Wiedergabe erzeugen. Die Schallquellen könnten sich nur vor dem Zuhörer befinden. Das ließe sich vermeiden, wenn die Lautsprecherwände allseitig um den Zuhörer aufgebaut würden, was wiederum zu den Problemen führt, die schon oben beschrieben waren. Auf der Suche nach einer praktikablen Lösung gingen die Entwickler der Wellenfeldsynthese deshalb den Kompromiss ein, auf die Darstellung der Elevationsebene zu verzichten. Es war eine akzeptable Lösung, die Lautsprecher nur in einer horizontalen Linie rings um den Zuhörer aufzubauen. Das ließ sich schon in den neunziger Jahren praktisch realisieren. Unsere Ortung basiert vor allem auf Laufzeitunterschieden in der Azimutebene, die lassen sich auch mit den Lautsprecherzeilen ausgezeichnet rekonstruieren.
Auf dieser Basis wurde innerhalb des europäischen CARROUSO Projektes ein passendes Übertragungsverfahren entwickelt. Dabei wird das trocken aufgenommene Audiosignal in die Impulsantwort des Raumes, also Informationen zu Schall-Laufzeiten und Pegeln von ersten schallstarken Reflexionen und Nachhall, „ gefaltet“, oder aber diese Reflektionen werden nach dem Modellbasierten Verfahren aus Raumgeometrie und Reflexionsfaktoren berechnet. Am Fraunhofer Institut wurde der dafür geeignete Standard MPEG4 entwickelt, der eine solche objektorientierte, getrennte Übertragung von Inhalt (reines Audiosignal) und Form (den zugehörigen Daten) zulässt. Jedoch kann auch jedes herkömmliche, trocken aufgenommene Audiosignal mittels Wellenfeldsynthese in einer passenden gespeicherten Umgebung reproduziert werden. Solch eine Wiedergabe kommt einer natürlichen Darbietung schon sehr nahe.
Vorzüge des Verfahrens
Die Wellenfeldsynthese rekonstruiert das Schallfeld physikalisch. Damit ist es nicht auf eine subjektive Phantomschallquellenbildung angewiesen, die auf erlernten und auch individuell unterschiedlichen psychoakustischen Effekten beruht. Es sind keine Einzellautsprecher mehr als Bezugspunkt ortbar. Die Lokalisationsschärfe wird signifikant verbessert und die virtuelle Schallquelle kann sich nun näher am Zuhörer befinden, als die Lautsprecher selbst. Die virtuellen Schallquellen werden sogar umgehbar. Ihre stabile Raumposition macht es nun möglich, wie im primären Schallfeld Kopfbewegungen und Dopplereffekte für die Ortung der Schallquelle auszuwerten.
Die Akustischen Verhältnisse im Aufnahmeraum werden mit der korrekten Ortung der Schallquelle und der richtungsgetreuen Abbildung der ersten schallstarken Reflexionen deutlich authentischer rekonstruiert. Die Entfernungswahrnehmung beruht nicht mehr allein auf der Auswertung des Direktschallanteiles, so dass die Tiefenstaffelung der akustischen Szene signifikant verbessert wird.
Konventionelle Lautsprecher können das dichteste Schallereignis immer nur in der Entfernung der Boxen darstellen. Das liegt vor allem daran, dass die Reflexionen im Wiedergaberaum bei ungerichteter Abstrahlung einen überhöhten Diffusfeldanteil erzeugen. Mit der Wellenfeldsynthese ist es erstmals möglich, Schallquellen darzustellen, die näher am Zuhörer, sogar innerhalb des Wiedergabebereiches, wahrgenommen werden. Dies ist einer der signifikantesten Vorteile der Wellenfeldsynthese weil damit eine emotional deutlich wirkungsvollere Reproduktion erzeugt wird.
Das Verfahren ist nicht nur kompatibel zur Wiedergabe konventioneller Mehrkanalproduktionen, es bringt hier sogar eine signifikante Verbesserung: Virtual panning spots genannte virtuelle Schallquellen zur Simulation der herkömmlichen Lautsprecherboxen können weit außerhalb des realen Wiedergaberaumes positioniert werden. Damit schwindet der Einfluss der Zuhörerposition auf die Wiedergabe, weil die relativen Positionsänderungen zu den weit entfernten virtuellen Schallquellen gering werden. Folge ist, dass sich der sweet- spot fast über den gesamten Wiedergaberaum erstrecken kann.
Im unteren Frequenzbereich arbeiten benachbarte Membranen synchron. Die davorliegende Luft kann deshalb nicht mehr einfach zur Seite ausweichen, wie das bei Einzellautsprechern unvermeidlich ist. Insbesondere in zweidimensionalen Lautsprecheranordnungen arbeiten die Wandler deshalb auf einen besser angepassten Lastwiderstand. Das erhöht den Wirkungsgrad deutlich und hoher Schalldruck kann schon bei sehr geringen Membranauslenkungen erzeugt werden. So könnten zukünftig auch neue Technologien wie CMOS- Mikrolautsprecher einsetzbar sein.
Auch die Effizienz der Signalübertragung ist deutlich besser. Caruso war eindeutig eine Monoschallquelle. Deshalb ist die Übertragung der reinen Audioinformation in einem Monokanal pro Audioquelle völlig ausreichend. Das räumliche Schallfeld entsteht erst in der Mailänder Scala, weil an Ihren Reflexionsflächen eine große Anzahl räumlich verteilter Spiegelschallquellen entsteht. Abhängig von deren Raumposition kommt es zu Signalverzögerungen durch die jeweilige Schalllaufzeit zum Zuhörer und die Reflexionsfaktoren der Oberflächen beeinflussen Frequenzgang und Amplitude dieser Spiegelschallquellen. Das Signal selbst aber stammt immer von der Monoschallquelle Carruso. Alle konventionellen Wiedergabeverfahren versuchen nun, die räumliche Verteilung der Schallquellen in der Scala auf wenige Audiokanäle zu reduzieren und ihre Ortung dabei auf psychoakustische Prinzipien zurückzuführen. Damit ist immer ein Verlust an Rauminformation verbunden. Viel effektiver ist die Synthese der räumlichen Struktur des Schallfeldes auf der Wiedergabeseite, weil dabei prinzipiell alle Einzelschallquellen an ihrer korrekten Position erzeugt werden können.
Zudem kann dieses Verfahren für Aufzeichnungen mit verschiedenen Sprachversionen gemeinsame Kanäle für Instrumente und Geräusche verwenden, nur die Text- oder Gesangsspur muss sich unterscheiden. Soweit jeweils nur eine Stimme aktiv ist, kann diese Spur sogar durch Wechsel der zugehörigen Daten mehreren Sprachquellen an verschiedenen Raumpositionen sequenziell zugeordnet werden.
Verbleibende Probleme
Der am deutlichsten wahrnehmbare Unterschied zum realen Schallfeld ist bis heute die übliche Reduktion des Verfahrens auf die horizontale Ebene des Zuhörers. Zwar ist es möglich, mit einem 2,5D- Syntheseoperator die Fehler in der Impulsantwort auszugleichen, die eine Quelle außerhalb dieser Ebene bei der Wiedergabe mit den Lautsprecherzeilen erfährt. Unsere Wahrnehmung enttarnt diesen Trick aber erbarmungslos. Wegen der sonst fast perfekten Wiedergabe bleibt die Reduktion auf die Ebene bei den Testaufbauten deutlich hörbar.
Problematisch ist heute auch noch der hohe Aufwand. Die Einzellautsprecher müssen sehr eng benachbart sein. Sonst werden räumliche Aliasing- Effekte hörbar. Sie entstehen deshalb, weil nicht unbegrenzt viele Sekundärquellen erzeugt werden können, so wie es der mathematische Ansatz beschreibt. Durch die Diskretisierung entstehen Interferenzen, die sich in positionsabhängigen, schmalbandigen Frequenzgangeinbrüchen innerhalb des Wiedergabebereiches auswirken. Andererseits bestimmt die Größe des Lautsprecherfeldes den Darstellbereich und die untere Grenzfrequenz. Der Wandlerabstand darf aber nicht mit der Größe des Strahlerfeldes zunehmen. Das rechtfertigt die Reduktion auf die Zeilen bis heute, obwohl die Wellenfeldsynthese prinzipiell nicht auf die horizontale Ebene reduziert ist.
Wird die Lautsprecheranordnung nicht rings um den Zuhörer geschlossen, so bildet sich an der letzten der erzeugten Sekundärwellen eine Schattenwelle, die wie eine zusäzliche, unerwünschte Wellenfront wahrgenommen wird. Dieser "Truncation Effekt" kann durch Pegelabsenkung der äußeren Wandler etwas gemindert werden, bei Schallquellen vor der Lautsprecheranordnung läuft die Schattenwelle dem Nutzsignal aber voraus, wodurch sie deutllich wahrnehmbar wird.
Die Reproduktion von Schallquellen innerhalb des Zuschauerbereiches bringt zwei elementare Probleme: Zum einen überlagert sich im Bereich zwischen den erzeugenden Lautsprechern und der im Wiedergabebereich angeordneten virtuellen Quelle das Erzeugerfeld mit dem Nutzfeld. Außerdem führt die konkave Form der Wellenfronten in diesem Bereich zu Fehlortungen, weil Laufzeitfehler zwischen den Ohren des Zuhörers (ITD) entstehen. Dadurch laufen die Schallwellen scheinbar in die falsche Richtung. Der Zuhörer darf sich für eine hochwertige Wiedergabe also nicht im Bereich zwischen virtueller Quelle und Lautsprecheranordnung befinden. Diese Artifakte können mit bekannten Verfahren bisher nur reduziert, nicht aber beseitigt werden. Zudem stimmt für virtuelle Schallquellen innerhalb des Zuschauerbereiches bei einer gekoppelten Bilddarstellung der optische Eindruck nur für einen einzigen Zuhörerplatz mit dem akustischen Eindruck überein. Das soll anhand der Darstellung verdeutlicht werden:
Darin ist eine nach dem Prinzip der Wellenfeldsynthese angesteuerte Lautsprecherzeile (1a) rings um die Zuhörer angeordnet. Die Zuhörer im Zuschauerbereich (1b) sehen auf der Bildwand (1c) die dargestellte Schallquelle (1d). Dabei kann für eine Bezugs- Zuhörerposition (1e) im Zuschauerbereich eine virtuelle Schallquelle (1f) erzeugt werden, für die der Schalleindruck mit der Bilddarstellung übereinstimmt. Für alle anderen Zuhörer im Zuschauerbereich entsteht für eine solche, innerhalb des Zuhörerbereiches dargestellte, virtuelle Schallquelle eine Divergenz zwischen dem optischen Eindruck und der akustischen Wahrnehmung. Deshalb kann die Möglichkeit des Verfahrens, Schallquellen nahe am Zuhörer zu reproduzieren nur sehr eingeschränkt genutzt werden. Dies ist aber einer der signifikantesten Vorzüge der Wellenfeldsynthese, weil die gerade die Darstellung von nahen Schallquellen für die Rezeption einer der wichtigsten emotionalen Faktoren ist. Eine Lösung des Problems ist in DE 10 2006 054 961 A1 dargestellt. Bei diesem Vorschlag wird das ganze Potenzial des Verfahrens der Wellenfeldsynthese deutlich. Die virtuellen Schallquellen können im Wiedergaberaum verschoben werden, ohne dass sich für den Zuhörer an der akustischen Wahrnehmung etwas ändert.
Ein weiteres grundsätzliches Problem ist, dass der Wiedergaberaum stark bedämpft werden muss. Sonst entstehen durch die Reflexionen Sekundärschallquellen, weshalb dann die Voraussetzung des quellfreien Volumens für die Synthese nicht mehr erfüllt wäre. Die Lautsprecherzeilen rekonstruieren die Akustik des Aufnahmeraumes mitsamt früher Reflexionen und Nachhall. Deshalb sind die Wiedergaberaumreflexionen zusätzliche, störende Signale, die nur in gewissem Rahmen toleriert werden können.
Die Abstrahlung der Schallzeilen ist in der Elevationsebene ungerichtet. Die Reflexionen der Zylinderwellen von Fußboden und Decke erzeugen in üblichen Wohnräumen einen überhöhten Diffusfeldanteil und sie fallen in die Anfangszeitlücke ( Initial Time Delay Gap ), weshalb sich Nahe Schallquellen nicht mit ihrer korrekten Impulsantwort abbilden lassen.
Praktische Umsetzung
Der wissenschaftliche Ansatz für das Verfahren der Wellenfeldsynthese ist sehr komplex. Aufnahmeseitig muss zuerst mit einem Mikrofon- Array eine Wellenfeldanalyse im Aufnameraum durchgeführt werden. Weil dabei nicht alle möglichen Raumpositionen erfasst werden können sind dann sehr rechenintensive Interpolationen und Extrapolationen der Impulsantworten bei der Synthese notwendig. Selbst bei dem auf die Ebene reduzierten Ansatz übersteigt es die heutigen Möglichkeiten der Computertechnik, diese komplexen Berechnungen für frei bewegte Quellen in Echtzeit durchzuführen. Weil für solche Quellen die Latenzzeit unter 250 ms bleiben muss, damit ihr räumlicher Versatz bei Bewegungen nicht störend wird, sind deshalb bei einigen Ansätzen nur vorbestimmte Quellpositionen möglich. Für sie werden entsprechende Filter vorausberechnet.
Für eine dreidimensionale Wellenfeldsynthese bliebe die verfügbare Rechenleistung bis heute weit unter den Anforderungen, die frei und in Echtzeit positionierbare Schallquellen erfordern würden. Der rein auf der Impulsantwort aufgebaute Ansatz, wie er heute für die Wellenfeldsynthese üblicherweise praktiziert wird, ist deshalb bis heute für ein Echtzeitrendering frei beweglicher Schallquellen im dreidimensionalen Raum nicht geeignet.
Im Eventbereich und in Kinos beginnen die Lautsprecherreihen um den Zuhörer herkömmliche technologien abzulösen. Ein durchbruch ist vielleicht schon die Installation im Manns Chinese 6, einem der bekannten Premierenkinos auf dem Hollywood Boulevard. Im Heimbereich ist aber eine Markteinführung im Heimbereich nicht in Sicht, neben dem hohen Aufwand stehen dem vor allem die Akzeptanzprobleme wegen der notwendigen Bedämpüfung des Wiedergaberaumes und den Lautsprecherreihen ringsum entgegen. Eine noch nicht praktisch realisierte Möglichkeit, mit der dei Wellenfeldsynthese auch im Heimbereich anwendbar würde, ist im nächsten Kapitel beschrieben.
