Aspect technique du binaural natif

Afin de réaliser des prises natives en binaural, il existe plusieurs façons de procéder selon le temps et le budget à disposition.

Si le temps et le budget le permettent, il est intéressant d’utiliser une tête binaurale commerciale. Ce dispositif permet d’obtenir les meilleurs résultats binauraux et il s’agit du système de référence en termes d’enregistrement professionnel. Ces têtes, comme par exemple la Neumann KU100, sont basées sur une moyenne mondiale de forme de têtes et d’oreilles humaines. Elles permettent donc une meilleure standardisation du signal pour chaque individu. En plus de la tête, il est aussi possible de rajouter un torse afin de prendre en compte l’effet « torso-related » qui comprend notamment les diffractions du son induites par le cou et les épaules.
Les microphones sont omnidirectionnels et placés au fond du conduit auditif artificiel, à l’endroit où se trouve le tympan humain.

Ces têtes sont utilisées dans des contextes variés pouvant aller de l’enregistrement de concert classique à la captation de paysages sonores pour de la fiction, en passant par la recherche en psychoacoustique et la réalité virtuelle.

Ces systèmes ont des avantages notables comme le réalisme de l’enregistrement notamment dans la perception de la hauteur et de la distance mais également le fait que l’enregistrement est utilisable directement en binaural. Cela évite le traitement qui peut être long et moins immersif lié à la synthèse.
Cependant, comme tout système, il n’est pas universel mais de plus, cela reste du matériel assez coûteux (de l’ordre de plusieurs milliers d’euros juste pour la tête) et assez peu discret pour des captations en public.

C’est donc pour cela que depuis les années 2000, la fabrication artisanale de têtes binaurales s’est démocratisée. Cela permet de réduire le coût et d’avoir une tête pour quelques centaines d’euros. Ces systèmes sont souvent développés à des fins pédagogiques, artistiques ou de recherches expérimentales, mais ils peuvent aussi être utilisés dans le cadre d’enregistrements professionnels au budget limité.

La structure crânienne doit imiter la forme et la densité d’un crâne humain. Il est donc possible d’utiliser du polystyrène, du bois ou de la résine.
Le pavillon auriculaire est la partie la plus sensible car c’est à cet endroit que le son sera principalement capté. Le plus souvent, les pavillons seront réalisés en silicone.
Enfin, concernant les microphones, il est possible d’utiliser des Panasonic WM-61A afin de réduire les coûts tout en gardant un son avec peu de bruit. Ils peuvent être remplacés par des DPA 4060 afin d’avoir une bien meilleure qualité sonore, tout en gardant le prix de la tête proche du millier d’euros.

Ce système est intéressant d’un point de vue budgétaire, mais il permet également de pouvoir expérimenter de façon plus facile l’acoustique liée à la densité et au pavillon des individus. Ces têtes dites DIY sont généralement utilisées sur le terrain car elles sont plus légères que des têtes commerciales. Elles sont aussi beaucoup utilisées dans la musique expérimentale et dans l’ASMR ou le podcast, notamment pour leur prix.

Il existe une dernière méthode pour réaliser des enregistrements binauraux. Cela consiste à placer des microphones directement dans les pavillons auditifs d’individus. Ce système permet un enregistrement à la première personne plus intuitif car l’individu devient en quelque sorte le microphone. De plus, elle lui permet une restitution optimale au casque car il s’agit de son HRTF.

La légèreté et la discrétion du système se prêtent parfaitement à des usages mobiles en situations réelles ainsi qu’aux mouvements de la tête. Cependant, les microphones intra-auriculaires sont très sensibles aux bruits du corps et de vêtements, et la restitution au casque peut poser problème pour certaines personnes car le HRTF peut ne pas leur convenir.

La synthèse binaurale

La synthèse binaurale désigne l’ensemble des techniques numériques qui permettent de simuler une écoute immersive au casque. Il permet de transformer des sons monophoniques ou multicanaux en sons binauraux. Afin de stocker toutes ces données, il est possible d’utiliser le format SOFA. Il s’agit d’un standard ouvert développé par l’AES et normalisé sous la référence AES69-2015. Il est principalement utilisé dans le mixage objets des programmes.

Le SOFA permet de stocker plusieurs catégories de données. Il y a d’abord les mesures HRTF d’un individu ou d’une tête, les positions des sources et des capteurs, c’est-à-dire leur azimut, élévation et distance, et enfin les métadonnées liées au fichier telles que l’identité du sujet, sa morphologie, le protocole de mesure utilisé, etc… Enfin, le fichier stocke le système de coordonnées utilisé (SOFA/IRCAM, SOFA/CIPIC). Cette liste de données stockées n’est pas exhaustive et c’est pour cela qu’il n’est pas rare d’avoir des fichiers SOFA faisant plusieurs centaines de Mégaoctets selon la qualité et la précision des réponses impulsionnelles réalisées.

Il existe de nombreuses bases de données d’HRTF au format SOFA avec chacune leur particularités. Il y a par exemple la base de données « CIPIC », réalisée par UC Davis, qui compte 45 sujets aux morphologies diverses. La « Listen » de l’IRCAM compte 51 sujets avec des mesures réalisées en chambre anéchoïques ou encore la « FABIAN » de TU Berlin qui ne compte qu’un sujet, mais dont la résolution spatiale est fine. L’utilisation de certaines bases de données dépend donc du résultat recherché.

Le principal avantage à l’utilisation du SOFA est son interopérabilité. Il est possible d’utiliser le même fichier dans des moteurs audio, des DAW ou des SDK de réalité virtuelle. De plus, le stockage de données est extensible ce qui signifie qu’il est possible de faire évoluer un SOFA, tout en gardant les données précédentes, ce qui permet par extension une personnalisation plus facile pour l’utilisateur.

Toutes les données des fichiers SOFA peuvent par la suite être utilisées dans des plugins binauraux et notamment les réverbérations. Bien que ce système offre un réalisme maximal, la faiblesse de cette technique est la limite de l’espace. Le résultat est cohérent spatialement avec la réponse impulsionnelle mais dépend du point de mesure. Dans le cadre d’une fiction ou d’une carte postale sonore binaurale, ce n’est pas une grande contrainte, mais quand il s’agit du jeu vidéo, cela devient tout de suite plus compliqué.

C’est donc pour cela qu’il est possible de créer des réverbérations binaurales algorithmiques. Elles ont l’avantage d’être extrêmement flexibles car chaque paramètre peut être changé à la volée, mais elles peuvent manquer de réalisme et de localisation si le moteur est mal calibré.

Il existe de nombreux plugins et moteurs audio prenant en charge le binaural de synthèse comme le Spat Revolution de l’IRCAM, la HOAReverb de Flux ou encore la DearVR Pro de Dear Reality.

Tous ces plugins sont basés sur les mêmes techniques de spatialisation. Il y a la décorrélation spatiale qui ajoute de légères différences interaurales dans le champ diffus ; la compensation de rotation de la tête (YAW) qui fait évoluer les réflexions en fonction de la rotation de la tête (uniquement dans les moteurs audios dynamique) ou encore le filtrage basé sur la distance qui applique une coloration spectrale à la réverbération selon la distance, généralement en appliquant une perte dans les aigus.

Ces plugins peuvent travailler sur des canaux discrets ou sur des objets. Chaque méthode à ses avantages et inconvénients. Pour les canaux discrets, la puissance de calcul pour la synthèse ainsi que pour la restitution du signal sera moins importe que pour les objets. Cependant, travailler avec des objets permet de s’adapter à n’importe quels systèmes d’écoute car les sources sonores ne sont plus liées aux canaux mais à l’espace. Ils permettent également de pouvoir faire du binaural dynamique, c’est-à-dire que le son bouge autour de l’auditeur en même temps qu’il tourne la tête.
Dans le cadre d’un programme binaural non dynamique, qui comporte donc deux canaux fixes, le choix des canaux discrets semble ainsi évident.

La synthèse et la prise native ont chacune leur avantages et inconvénients mais dans le cadre de la fidélité et de l’immersion, la prise native sera en règle générale plus intéressante que la synthèse. La chercheuse Elizabeth M. Wenzel a notamment démontré dans une étude de 1993 que seulement 25% des sujets localisent correctement les sons en synthèse binaurale. L’intérêt de la synthèse est donc principalement lié au jeu vidéo, là où la distance importe réellement.

L'aspect esthétique

Concernant l’esthétisme d’un programme binaural, il est assez difficile de pouvoir traiter le signal en postproduction. Par exemple, l’utilisation d’un égalisateur altère le spectre fréquentiel, ce qui détruit le filtrage en peigne naturel lié à la spatialisation. Les prises binaurales deviennent donc stéréophoniques.

Bien que le choix des microphones puisse avoir un lien avec le budget et le temps accordé, il joue un rôle plus classique de couleur sonore. Le choix des réverbérations, des bases de données utilisées joue sur la définition du signal et donc sur l’émotion recherchée. Il serait peut-être intéressant d’utiliser un SOFA moins défini dans le cadre d’une fiction sonore horrifique afin de perdre plus facilement l’auditeur, afin de le plonger au cœur de la détresse des personnages.

Tout cela fait partie des choix liés à une production, mais il faut également faire attention à ne pas vouloir non plus « abuser » de l’utilisation du binaural. Il se peut qu’un programme stéréophonique soit plus en lien avec le sujet traité que du binaural. Si l’immersion ne s’y prête pas, il est important de ne pas forcément imposer le binaural. Ce dernier étant encore nouveau pour les auditeurs amateurs, imposer le binaural là où il n’a pas de réel intérêt pourrait les repousser à écouter des programmes binauraux complexes, ne voyant pas la différence avec un programme stéréophonique habituel.

Création personnelle, le sujet

Cherchant, au travers de ce mémoire, à comprendre comment se créer une carte postale sonore binaurale, il me paraissait assez évident de tenter de créer moi-même un tel programme afin de plus facilement comprendre la difficulté et les enjeux liés au binaural.

Étant originaire de Reims, le sujet que j’ai choisi m’est apparu comme une évidence : réaliser une carte postale sonore de la ville de Reims. Pour ce faire, je me suis rendu à la Cathédrale de Reims, au Stade Delaune et enfin dans une cave de champagne. Ces lieux représentent selon moi des aspects à la fois touristiques, artistiques et culturels de la ville.

La production

Avant toute chose, il était important pour moi de déterminer l’importance du binaural dans cette production. Afin de retranscrire au mieux les lieux que j’ai choisi, il était nécessaire d’avoir un format immersif pour pouvoir profiter au maximum de la grandeur des espaces, notamment la cathédrale et le stade Delaune.

Lors de la phase de préproduction, j’ai donc commencé par réaliser un premier plan de ce que je souhaitais incorporer à ma carte postale. Pour la cathédrale, j’ai donc imaginé l’entrée dans celle-ci, le bruit des cloches et des chants grégoriens ainsi que les bruits des pas de personnes se déplaçant à l’intérieur. Ensuite, changement de lieu, direction une cave de champagne avec le bruit des pas en lien, ainsi que le bruit des bouteilles manipulées par le caviste. Finalement, après être sorti de la cave, direction le stade Delaune lors d’un match afin de vivre au plus près l’ambiance.

Concernant la liste du matériel utilisée, j’ai opté pour un Zoom F6 et une paire de Earsight Binaural. Ce choix se base sur 2 critères : le premier économique et le deuxième praticité / discrétion. Cela m’évite de devoir investir ou louer du matériel coûteux, et cela me permet également de pouvoir réaliser des mouvements de déplacement plus facilement.
Le principal inconvénient de ce système est le monitoring. Il était impossible de pouvoir enregistrer et écouter en même temps, ce qui m’a demandé plusieurs prises test afin de comprendre comment fonctionne et sonne le matériel simplement en regardant les vumètres.

Le second inconvénient est évidemment le choix du HRTF. Le risque de ce genre de pratique est le manque de standardisation pour le plus grand nombre d’auditeurs. Enfin, afin de pallier au problème de saturation, toutes mes prises ont été réalisées en 32 bits flottants – 48 kHz.

Enfin, vis-à-vis des autorisations et lieux de tournage, certaines contraintes se sont présentées à moi notamment pour le stade Delaune. Il a donc fallu pour cela que je contacte le responsable sécurité afin de lui parler de mon projet, ce à quoi il m’a autorisé l’accès.

La réalisation

Après avoir réalisé tous mes enregistrements, j’ai choisi de partir sur REAPER pour le montage et le mixage. Je l’ai choisi car il est léger, modulable et suffisant pour ce que demande le binaural en tant que tel.

J’ai donc d’abord commencé par importer mes pistes, puis je les ai rangées par catégories. J’ai ensuite tout réécouté, puis trié ce qui me paraissait du plus au moins exploitable. J’ai également utilisé les marqueurs d’objets afin d’annoter les événements importants de mes enregistrements comme des bruits de cloches, de bouteilles ou encore de buts marqués.

Après cela, j’ai réalisé une phase de sélection et de montage de mes pistes. J’ai d’abord pris des ambiances du parvis de la cathédrale ainsi que des cloches et de l’ambiance intérieure. À cela j’ai rajouté de l’orgue, des bruits de portes et de pas.

La première partie se déroule donc dans la cathédrale selon le chemin suivant : Tout d’abord, l’auditeur arrive sur le parvis de la cathédrale puis entre par la façade occidentale. Il se retrouve alors dans la nef. De l’orgue joue plus loin, au niveau du transept et des gens marchent dans les bas-côtés ainsi que dans le déambulatoire.
Après cela, un bruit de porte intervient, ce qui nous envoie dans la charpente de la cathédrale. C’est un endroit bien plus calme bien que la structure ne soit pas en bois mais en béton.

Afin de passer à ma deuxième partie, j’ai utilisé des sons de cloches extérieurs et des pas dans un escalier afin de faire passer l’auditeur aux caves de champagne.

J’ai choisi de mettre différentes sonorités de bouteilles. Les plus aiguës sont des bouteilles classiques (0.75L) alors que les plus graves sont des magnums (1.5L).

Enfin, la dernière partie tourne autour du stade Delaune. J’ai donc récupéré l’ambiance du stade, ainsi qu’un moment où un but a été marqué.

Concernant les traitements, à part une légère égalisation sur certains éléments, il n’y a rien d’autre. Mes prises ayant naturellement une grande dynamique, mon programme a un LRA de 20 et un niveau de -24 LUFS.

Les difficultés rencontrées

L’une des principales difficultés de ce projet a été les bruits parasites liés aux personnes autour de moi. Il était évident que je ne pouvais pas demander aux gens de faire moins de bruits. Il a donc fallu choisir les meilleures prises, et malgré cela, il reste encore certains bruits que je n’ai pas réussi à retirer au nettoyage.

Un autre problème a été le fond d’air sur les ambiances dans la cathédrale. Il a donc fallu que je le corrige à l’égalisation, en baissant légèrement le bas de spectre afin de laisser de la place au reste, sans pour autant abîmer ma spatialisation.