Már a hangalapú adathalászattól is tartanunk kell
A hangalapú adathalászat (voice phishing, vagy vishing) a mesterséges intelligencia (MI) technológiájának fejlődésével új, aggasztó szintre lépett: a valós idejű MI-csalások korába. Míg korábban az e-mailek óvatos kezelését kellett megtanulnunk, mára ugyanezt a gyanakvást kell alkalmaznunk az „emberi hangnak” tűnő telefonbeszélgetésekkel szemben is. Néhány évvel ezelőtt egy meggyőző, valós idejű telefonos MI-rendszer létrehozása még rendkívül bonyolult, idő- és erőforrásigényes feladat volt, amelyhez több szoftveres komponenst kellett összekapcsolni. Az olyan, beszédre optimalizált, alacsony késleltetésű MI-modellek megjelenésével, mint az OpenAI RealTime API-ja, ez a technikai akadály elhárult, és ma már percek alatt összeállítható egy korábban több komponensből álló rendszer.
A nyilvánosan elérhető kódok és a fejlett MI-modellek lehetővé teszik, hogy a csalók egy valós időben reagáló, folyékonyan beszélő, szintetikus hangot használjanak. Ez a technológia képes természetesen improvizálni és fenntartani egy emberinek tűnő párbeszédet. Ennek eredményeként az elmúlt évben a széles körű, MI-alapú vishing elméleti lehetősége valósággá vált, amit súlyos anyagi károkkal járó incidensek is bizonyítanak. Például a brit Arup technológiai céget $25 millió dollárral károsították meg deepfake-csalással, míg a Cisco elleni támadás során adatokhoz fértek hozzá. A Ferrari pénzügyi vezetőjét pedig a vezérigazgató hangján hívták fel, pénzügyi átutalásra kérve. Ami korábban szakértelmet igényelt, ma már bárki számára elérhető, előre csomagolt formában, lehetővé téve, hogy az adaptív, valós idejű MI-manipuláció célzott csaló hívásokat indítson, például egy HR-vezető vagy csalásellenes szakértő hangján.
A technológia, bár rendelkezik legitim alkalmazási területekkel (pl. ügyfélszolgálat, nyelvtanítás, egészségügyi követés), a könnyű hozzáférhetőség miatt a kár lehetőségét is magában hordozza. A fenyegetést fokozza az olyan platformok realizmusa és alacsony költsége, mint az ElevenLabs vagy a Cartesia, amelyek rövid hangmintákból képesek meggyőző hangklónozásra. Egyetlen csaló operátor elméletileg naponta több százezer, célzottan a megcélzott személyhez igazított csaló hívást indíthat. Közszereplők esetében viszonylag könnyű órányi felvételt gyűjteni, amiből meggyőző hangutánzat készíthető. Az FBI már figyelmeztetett a jelenségre, miután közszereplők utánzására is volt példa a támadások során, hangsúlyozva, hogy ne higgyünk automatikusan a magas rangú tisztviselők nevében érkező üzeneteknek.
Az MIT Risk Repository adatai szerint az elmúlt öt évben a csalással összefüggő MI-események aránya mintegy 9 százalékról 48 százalékra emelkedett, jelezve a kibertámadások nagyságrendjének növekedését. Ezzel a hangalapú azonosítás, amely beszédminták alapján azonosítja az ügyfeleket, komoly kockázati tényezővé vált. A rövid távú megoldás a laikusok számára az, hogy a vonal másik végén hallott hang már nem bizonyíték arra, hogy ki beszél. Ahogyan az e-mailek esetében, ma már a „humán hangot” is meg kell kérdőjeleznünk, különösen érzékeny kérések és magas értékű tranzakciók esetén, ahol többfaktoros azonosítás bevezetése szükséges. Hosszabb távon olyan technológiákra lehet szükség, mint a hangvízjelek vagy digitális aláírások a beszéd hitelesítéséhez.
Az MI körüli diskurzusok gyakran az egzisztenciális kockázatokra összpontosítanak, de az első csapás a kisebb, közvetlen veszélyek formájában ér el minket. A hangalapú csalás és az álnévhasználat aláássa a mindennapi kommunikációba vetett bizalmat, és ezek a „mindennapi” bűncselekmények az MI-átmenet frontvonalát képezik. A generatív MI valódi zavaró hatása – csendes, láthatatlan formában – már megérkezett, és nem szuperintelligencia formájában, hanem egy megtévesztő telefonhívásban jelentkezik. Az MI támadó eszközeit megalkotó kreativitásnak most a védelemre kell összpontosítania.
Kép: CNBC
