Latest Breaking News & Top Headlines

Door AI gegenereerde deepfake-stemmen kunnen zowel slimme assistenten als mensen voor de gek houden met 5 seconden training

0

Volgens een nieuw rapport kan gemakkelijk beschikbare software de stem van een persoon zo nauwkeurig imiteren dat het zowel mensen als slimme apparaten voor de gek kan houden.

Onderzoekers van het Security, Algorithms, Networking and Data (SAND) Lab van de Universiteit van Chicago hebben deepfake-spraaksyntheseprogramma’s getest die beschikbaar zijn op de open-source community-site voor ontwikkelaars Github om te zien of ze spraakherkenningsbeveiliging op Amazon’s Alexa, WeChat en Microsoft Azure konden ontgrendelen.

Een van de programma’s, bekend als SV2TTS, heeft volgens de ontwikkelaars slechts vijf seconden nodig om een ​​redelijke imitatie te maken.

Beschreven als een ‘real-time toolbox voor het klonen van spraak’, was SV2TTS in staat om Microsoft Azure ongeveer 30 procent van de tijd te misleiden, maar kreeg het beste van zowel WeChat als Amazon Alexa in bijna tweederde of 63 procent van de tijd.

Het was ook in staat om menselijke oren voor de gek te houden: 200 vrijwilligers die werden gevraagd om de echte stemmen uit de deepfakes te identificeren, werden ongeveer de helft van de tijd bedrogen.

De deepfake-audio was echter succesvoller in het vervalsen van vrouwenstemmen en die van niet-Engelstaligen, ‘waarom dat is gebeurd, moeten we verder onderzoeken’, vertelde SAND Lab-onderzoeker Emily Wenger aan New Scientist.

‘We vinden dat zowel mensen als machines betrouwbaar voor de gek kunnen worden gehouden door synthetische spraak en dat bestaande verdedigingen tegen gesynthetiseerde spraak tekortschieten’, schreven de onderzoekers in een rapport op de open-access server arxiv.

‘Zulke tools in de verkeerde handen zullen een reeks krachtige aanvallen mogelijk maken tegen zowel mensen als softwaresystemen’ [aka machines].’

Scroll naar beneden voor video

Met behulp van de spraaksynthesesoftware SV2TTS om deepfake-audio te creëren, konden onderzoekers Amazon Alexa en WeChat voor de gek houden door hun spraakherkenningsbeveiliging bijna tweederde van de tijd te ontgrendelen

WeChat stelt gebruikers in staat om in te loggen met hun stem en Alexa stelt gebruikers onder meer in staat om spraakopdrachten te gebruiken om betalingen te doen aan apps van derden zoals Uber, meldde New Scientist, terwijl het spraakherkenningssysteem van Microsoft Azure is gecertificeerd door verschillende brancheorganisaties.

Wenger en haar collega’s testten ook een ander spraaksyntheseprogramma, AutoVC, dat vijf minuten spraak nodig heeft om de stem van een doelwit opnieuw te creëren.

AutoVC kon Microsoft Azure slechts ongeveer 15 procent van de tijd voor de gek houden, dus de onderzoekers weigerden het te testen tegen WeChat en Alexa.

De lableden werden aangetrokken door het onderwerp audiodeepfakes nadat ze hadden gelezen over oplichters die waren uitgerust met spraakimitatiesoftware die een directeur van een Brits energiebedrijf ertoe hadden aangezet hen meer dan $ 240.000 te sturen door zich voor te doen als zijn Duitse baas.

De deepfake-stemmen konden ongeveer de helft van de tijd 200 vrijwilligers voor de gek houden

De deepfake-stemmen konden ongeveer de helft van de tijd 200 vrijwilligers voor de gek houden

‘We wilden kijken hoe praktisch deze aanvallen kunnen zijn, aangezien we er in de echte wereld enig bewijs van hebben gezien’, vertelde Emily Wenger, een promovendus in het SAND Lab, aan New Scientist.

Het niet bij naam genoemde slachtoffer maakte het geld in 2019 over naar een geheime rekening in Hongarije ‘om het bedrijf te helpen boetes voor te late betaling te voorkomen’, aldus de verzekeraar van het bedrijf, Euler Hermes.

De directeur vond het een ‘vreemde’ eis, maar geloofde het overtuigende Duitse accent toen hij het aan de telefoon hoorde, meldde de Washington Post.

‘De software was in staat om de stem te imiteren, en niet alleen de stem – de tonaliteit, de interpunctie, het Duitse accent,’ zei de verzekeraar.

De dieven werden pas tegengehouden toen ze de list een tweede keer probeerden en de verdachte directeur zijn baas direct belde.

Onderzoekers van het SAND Lab van de Universiteit van Chicago waren aangetrokken tot het onderzoeken van deepfake-audio door nieuws over oplichters die waren uitgerust met spraakimitatiesoftware die een leidinggevende misleidde om hen meer dan $ 240.000 te sturen door zich voor te doen als zijn baas

Onderzoekers van het SAND Lab van de Universiteit van Chicago waren aangetrokken tot het onderzoeken van deepfake-audio door nieuws over oplichters die waren uitgerust met spraakimitatiesoftware die een leidinggevende misleidde om hen meer dan $ 240.000 te sturen door zich voor te doen als zijn baas

De daders van de zwendel, aangekondigd als ‘s werelds eerste deepfake-overval, werden nooit geïdentificeerd en het geld werd nooit teruggevonden.

Onderzoekers van cyberbeveiligingsbedrijf Symantec zeggen dat ze drie vergelijkbare gevallen hebben gevonden van leidinggevenden die werden verteld om geld naar privérekeningen te sturen door dieven met behulp van AI-programma’s.

Een van deze verliezen bedroeg in totaal miljoenen dollars, vertelde Symantec aan de BBC.

Spraaksynthesetechnologie werkt door de stem van een persoon te nemen en deze op te splitsen in lettergrepen of korte geluiden voordat ze worden herschikt om nieuwe zinnen te maken.. Afgebeeld: zoals veel apps, kunnen gebruikers met WeChat inloggen met hun stem

Spraaksynthesetechnologie werkt door de stem van een persoon te nemen en deze op te splitsen in lettergrepen of korte geluiden voordat ze worden herschikt om nieuwe zinnen te maken.. Afgebeeld: zoals veel apps, kunnen gebruikers met WeChat inloggen met hun stem

Stemsynthesetechnologie werkt door de stem van een persoon te nemen en deze op te splitsen in lettergrepen of korte geluiden voordat ze worden herschikt om nieuwe zinnen te maken.

Glitches kunnen zelfs worden weggeredeneerd als dieven doen alsof ze zich in een auto of een drukke omgeving bevinden.

Er zijn tal van legale stemsyntheseprogramma’s op de markt: Lyrebird, een startup uit San Francisco, adverteert dat het de ‘meest realistische kunstmatige stemmen ter wereld’ kan genereren.

Het belooft dat zijn Descript-programma iemand kan dupliceren na het uploaden van een spraakclip van één minuut.

In zijn ethische verklaring geeft Lyrebird toe dat software voor stemsynthese ‘de potentie heeft voor misbruik’.

‘Hoewel Descript een van de eerste producten is met generatieve mediafuncties, zal het niet de laatste zijn’, aldus het bedrijf.

‘Als zodanig zijn we toegewijd aan het modelleren van een verantwoorde implementatie van deze technologieën, het ontsluiten van de voordelen van generatieve media en beschermen tegen kwaadwillig gebruik.’

Maar het voegt eraan toe: ‘Er zullen binnenkort andere generatieve mediaproducten bestaan, en er is geen reden om aan te nemen dat ze dezelfde beperkingen zullen hebben die we aan Descript hebben toegevoegd.’

Het bedrijf roept mensen op ‘kritische consumenten te zijn van alles wat we zien, horen en lezen’.

Ian Goodfellow, directeur machine learning bij Apple’s Special Projects Group, bedacht de term ‘deepfake’ in 2014, als een samentrekking van ‘deep learning’ en ‘nep’.

Het verwijst naar een video, audiobestand of foto die authentiek lijkt, maar in werkelijkheid het resultaat is van kunstmatige intelligentiemanipulatie.

Met studies die voldoende input van een doelwit hebben, kan het systeem een ​​algoritme ontwikkelen om hun gedrag, bewegingen en/of spraakpatronen na te bootsen.

In de zomer leidde een nieuwe documentaire van Anthony Bourdain tot controverse toen de regisseur toegaf dat hij AI en computeralgoritmen had gebruikt om de stem van de late voedselpersoonlijkheid kunstmatig opnieuw te creëren.

Morgan Neville zei dat hij een softwarebedrijf een dozijn uur aan audiotracks had gegeven en dat ze een 'AI-model' van de stem van Anthony Bourdain hadden ontwikkeld

Morgan Neville zei dat hij een softwarebedrijf een dozijn uur aan audiotracks had gegeven en dat ze een ‘AI-model’ van de stem van Anthony Bourdain hadden ontwikkeld

De doc, Roadrunner, gaat over Bourdain, die in 2018 zelfmoord pleegde in een hotelsuite in Parijs, naar eigen zeggen, ontleend aan televisie- en radio-optredens, podcasts en audioboeken.

In een paar gevallen zei filmmaker Morgan Neville echter dat hij technologische trucs gebruikte om Bourdain dingen te laten uiten die hij nooit hardop zei.

Zoals Helen Rosner van The New Yorker meldde, in Roadrunner’s tweede helft, leest LA-kunstenaar David Choe uit een e-mail die Bourdain hem stuurde: ‘Kerel, dit is een gek ding om te vragen, maar ik ben nieuwsgierig…’

Dan verschuift de stem die de e-mail reciteert – plotseling is het van Bourdain, die zegt: ‘. . . en mijn leven is nu een beetje klote. Jij bent succesvol, en ik ben succesvol, en ik vraag me af: ben je gelukkig?’

‘Er waren drie citaten waar ik zijn stem voor wilde hebben en waar geen opnames van waren’, vertelde Neville aan Rosner.

Dus gaf hij een softwarebedrijf tientallen uren aan audio-opnames van Bourdain en zij ontwikkelden, volgens Neville, een ‘AI-model van zijn stem’.

Rosner kon alleen de ene scène detecteren waarin de deepfake-audio werd gebruikt, maar Neville geeft toe dat er meer waren.

‘Als je de film bekijkt, behalve die zin die je noemde, weet je waarschijnlijk niet wat de andere regels zijn die door de AI zijn gesproken, en je zult het ook niet weten’, zei hij tegen haar. ‘We kunnen er straks een documentair-ethisch panel over hebben.’

Een video die op het account is gedeeld, toont deepfake Cruise die een feestelijk Hawaiiaans shirt draagt ​​terwijl hij knielt voor de camera.  Hij laat een munt zien en laat hem in een geval verdwijnen

Hij laat een munt zien en laat hem in een keer verdwijnen - als magie.  'Ik wil je wat magie laten zien,' zegt de bedrieger terwijl hij de munt vasthoudt.  'Het is echt, ik bedoel, het is allemaal echt', zegt 'Cruise' terwijl hij met zijn hand over zijn gezicht zwaait

Vorige week verscheen er een account op de app, genaamd ‘deeptomcruise’, waarop een aantal video’s te zien zijn die meer dan 11 miljoen keer zijn bekeken. Foto’s is een van ‘Cruise’ die een goocheltruc doet

In maart verscheen een deepfake-video die meer dan 11 miljoen keer op TikTok werd bekeken en waarin Tom Cruise in een Hawaiiaans shirt close-up magie deed.

In een blogpost zei Facebook dat het misleidende, gemanipuleerde media zou verwijderen die zijn bewerkt op manieren die ‘niet duidelijk zijn voor een gemiddelde persoon en waarschijnlijk iemand zouden misleiden door te denken dat een onderwerp van de video woorden zei die ze niet echt zeiden’.

Het is niet duidelijk of de Bourdain-regels, die hij schreef maar nooit uitte, van het platform zouden worden verbannen.

WAT IS EEN DEEPFAKE?

Deepfakes worden zo genoemd omdat ze zijn gemaakt met behulp van deep learning, een vorm van kunstmatige intelligentie, om nepvideo’s van een doelpersoon te maken.

Ze worden gemaakt door een computer een algoritme of een reeks instructies te geven, evenals veel afbeeldingen en audio van de doelpersoon.

Het computerprogramma leert dan de gezichtsuitdrukkingen, maniertjes, stem en stembuigingen van de persoon na te bootsen.

Met genoeg video en audio van iemand, kun je een nepvideo van een persoon combineren met nepgeluid en ze alles laten zeggen wat je wilt.

.

Leave A Reply

Your email address will not be published.