Als professioneel stemacteur sta ik natuurlijk niet te juichen als computers steeds beter worden in het nabootsen van de menselijke stem. Maar er voor weglopen of per definitie afdoen als inferieur, dat is ook niet echt verstandig. Ik verdiep mij er dus in en laat u graag meekijken met de modernste stand van zaken.
Hieronder hoort u enkele fragmenten die gegenereerd zijn via Elevenlabs.io, dat momenteel voorop loopt op het gebied van kunstmatige stemmen en dan met name het clonen van stemmen. Op basis van slechts een paar minuten materiaal ontstond er een kopie van mijn stem.
Dat testte ik overigens twee jaar geleden ook al bij Descript.com maar die waren lang zo goed niet. Daar moest ik een verhaal van ruim 30 minuten oplezen en was mijn virtuele stem pas na een nachtje rekenen klaar. Dit was het resultaat:
Nou, daar liggen we natuurlijk niet wakker van. Maar dat was eind 2021 en de ontwikkelingen gaan snel! Laten we dat eens beluisteren.
Ik liet ChatGPT een stukje tekst schrijven zoals in een documentaire te horen zou zijn, over de fabricage van microprocessoren. Dat plak ik hieronder even, dan kun je meelezen:
Welcome to the fascinating world of microprocessor production. Today, we’ll take you on a journey through the intricate process of creating these powerful electronic brains. In the heart of a state-of-the-art fabrication facility lies the cleanroom, where cutting-edge technology converges with precision engineering. This is where the magic happens.
Here, silicon wafers are meticulously crafted, layer by layer, using advanced lithography techniques. These wafers will become the foundation of our microprocessors. The etching process sculpts intricate patterns onto the silicon wafer, defining the transistors and interconnections that make up a microprocessor.
Next, deposition adds various materials onto the wafer, creating vital components such as gates, conductors, and insulators.
Photolithography transfers complex designs onto the wafer, enabling the creation of microscopic structures with incredible accuracy.
After extensive testing, individual microprocessors are carefully packaged, ready to power a vast array of technological marvels.
Every step in the production of microprocessors is a testament to human ingenuity and precision engineering. These tiny wonders continue to revolutionize our world, driving innovation and powering the devices we rely on every day.
Vervolgens liet in deze tekst inspreken door een gekloonde versie van mijn stem. Die spreekt trouwens nog geen Nederlands.
Je kunt spelen met diverse instellingen, maar je kunt deze stem nog niet per zin regisseren en dat is ook wel te horen. In het eerste voorbeeld begint ‘mijn’ stem erg expressief en daarna wordt het om een of andere reden erg monotoon:
(Stabiliteit 40 realisme 80.)
Dat kan zo niet, dus ik maakte een versie die minder expressief was. (Hoe lager het nummer voor stabiliteit, hoe meer ‘random’ expressiviteit er aan de stem wordt toegevoegd.)
(Stabiliteit 60 realisme 80.)
Is dat nou beter? In elk geval gelijkmatiger. Wat zou er gebeuren als ik de expressiviteit erg hoog zette en meteen voor 100% realisme ging? Poging 3, met een ingekorte tekst:
(Stabiliteit 20, realisme 100.)
Tsja, het is wel echt mijn stem he. Overigens moest ik hier ingrijpen om het ‘punt-nl’ aan het einde eindelijk goed uitgesproken te krijgen. Maar verder is dit toch niet hoe ik het zou doen. Ik zou de snelheid aanpassen en beter intoneren. Alle expressiviteit komt op de raarste momenten. En die eerste zin, ‘Today, we’ll take you on a journey through the intricate process of creating these powerful electronic brains‘ komt er nooit echt uit of we nou eens iets interessants gaan bekijken.
Toch is het niet alleen kommer en kwel met die stemmen. Met dezelfde samples spreek ik opeens vloeiend Italiaans!
Nou spreek ik dat zelf niet, maar zelfs ik hoor dat hier de intonatie ook niet goed genoeg is. Toch zou ik dit kunnen gebruiken, bijvoorbeeld voor het inspreken van een telefooncentrale in meerdere talen, waaronder een paar die ik niet beheers. En het barst van de YouTubers die al jaren genoegen namen met de stem van Siri, die het er ook voor zouden doen. Maar dat waren toch al nooit mijn opdrachtgevers.
Maar hoe doe ik het dan zelf? Ik heb dat natuurlijk zelf ook even ingesproken en dan krijg je dit:
(De echte stem van voice-over Martijn Warnas)
En voor de vorm maakte ik ook een opname van een Amerikaans klinkende kunstmatige stem:
Tot slot liet in de tekst in het Nederlands vertalen en inspreken door de virtuele stem ‘Dirk’ van Revoicer:
Moah, niet eens zo slecht! Sterker nog, ik heb Dirk al eens een complete onzinvideo laten inspreken. Maar dat was voor een ander experiment.
Wat zijn nu legitieme gebruiksdoelen voor zo’n virtuele stem?
Die zijn er heus wel! Denk aan:
- Een stem geven aan sprekende computersystemen, waar wij mensen toch steeds meer contact mee krijgen. Dat kan een virtuele klantenservicemedewerker zijn, maar ook een leraar.
- Een stem geven aan mensen die hun stem door ziekte zijn verloren, zoals Stephen Hawking. Die kunnen dan zelfs hun eigen stem terugkrijgen.
- Audioboeken maken van boeken waarvoor dat commercieel niet interessant is
- Het kunnen voorlezen van bijvoorbeeld krantenartikelen, iets waar niet alleen blinden behoefte aan hebben
- Een stem behouden die anders met de eigenaar zou zijn verdwenen, zodat bepaalde fictieve karakters hun stem niet zullen verliezen. Ik denk aan de magnifieke stem van Jerome Reehuis, maar ook aan die van Frits Lambrechts en Sacco van der Made. Zo is Frits Lambrechts echt de allerbeste Nederlandse ‘Mater’ uit Cars en was er nooit een betere stem voor Oom Dagobert dan Sacco van der Made.
Ik moet eerlijk toegeven dat ik als stemacteur ook liever geen lange audioboeken doe. De prijs per uur is niet echt interessant meer en het is een enorme aanslag op je stem. Maar als een A.I. met mijn stem het zware werk doet en ik alleen in hoef te grijpen als de A.I. de intonatie of uitspraak echt niet goed doet, dan kan het toch interessant worden.
Het zal allemaal wel wat moeilijker voor mij worden, vrees ik. Uiteindelijk is menselijke arbeid altijd duurder en iedereen maakt zijn eigen prijs/kwaliteit afweging. Maar stemacteurs zijn bepaald niet de enigen die iets te vrezen hebben van kunstmatige intelligentie. Ik voorspel dat callcentermedewerkers, vertalers en copywriters ook flinke concurrentie krijgen, op de voet gevolgd door grafisch ontwerpers en videomakers. Alleen mensen die echt met hun handen werken, zoals mijn zwager de loodgieter, hoeven voorlopig niks te vrezen. Het zij zo. Times change and we change with the times.