Home जीवनशैली AI ‘कॉकटेल पार्टी प्रॉब्लेम’ सोडवते आणि कोर्टात उपयुक्त ठरते

AI ‘कॉकटेल पार्टी प्रॉब्लेम’ सोडवते आणि कोर्टात उपयुक्त ठरते

15
0
AI ‘कॉकटेल पार्टी प्रॉब्लेम’ सोडवते आणि कोर्टात उपयुक्त ठरते


Getty Images तीस वर्षातील चार महिला हातात पेय घेऊन गप्पा मारत आहेतगेटी प्रतिमा

गटांमध्ये लोक त्यांच्याभोवती बडबड करतात – आणि आता तंत्रज्ञान तेच करू शकते

ही बारमाही “कॉकटेल पार्टी प्रॉब्लेम” आहे – माणसांनी भरलेल्या खोलीत उभे राहणे, हातात पिणे, तुमचा सहकारी पाहुणे काय म्हणत आहे ते ऐकण्याचा प्रयत्न करा.

खरं तर, प्रतिस्पर्धी आवाज फिल्टर करताना एका व्यक्तीशी संभाषण करण्यात मानव विलक्षणपणे पारंगत आहे.

तथापि, कदाचित आश्चर्याची गोष्ट म्हणजे, हे एक कौशल्य आहे जे अलीकडेपर्यंत तंत्रज्ञानाची प्रतिकृती तयार करण्यात अक्षम आहे.

आणि न्यायालयीन प्रकरणांमध्ये ऑडिओ पुरावा वापरण्याच्या बाबतीत ते महत्त्वाचे आहे. पार्श्वभूमीतील आवाजांमुळे कोण बोलत आहे आणि काय बोलले जात आहे हे निश्चित करणे कठीण होऊ शकते, संभाव्यत: रेकॉर्डिंग निरुपयोगी बनवते.

वेव्ह सायन्सेसचे संस्थापक आणि मुख्य तंत्रज्ञान अधिकारी इलेक्ट्रिकल अभियंता कीथ मॅकएलवीन, जेव्हा ते युएस सरकारसाठी युद्ध गुन्ह्यांच्या प्रकरणात काम करत होते तेव्हा त्यांना या समस्येमध्ये रस निर्माण झाला.

“आम्ही हे जाणून घेण्याचा प्रयत्न करत होतो की नागरिकांच्या हत्याकांडाचा आदेश कोणी दिला होता. काही पुराव्यांमध्ये एकाच वेळी बोलणाऱ्या अनेक आवाजांसह रेकॉर्डिंगचा समावेश आहे – आणि तेव्हाच मला कळले की “कॉकटेल पार्टीची समस्या” काय आहे,” ते म्हणतात.

“मी ऑटोमोबाईलचे आवाज किंवा एअर कंडिशनर किंवा पंख्यांसारखे आवाज काढून टाकण्यात यशस्वी झालो होतो, परंतु जेव्हा मी भाषणातून भाषण काढून टाकण्याचा प्रयत्न करू लागलो, तेव्हा ती केवळ एक अतिशय कठीण समस्याच नाही, तर ती क्लासिक कठीण समस्यांपैकी एक होती. ध्वनीशास्त्र मध्ये.

“आवाज खोलीभोवती उसळत आहेत आणि ते सोडवणे गणितीयदृष्ट्या भयानक आहे.”

पॉल चेनी कीथ मॅकएलवीन एका पांढऱ्या फळीसमोर मार्कर पेन घेऊन उभा आहेपॉल चेनी

“कॉकटेल पार्टी प्रॉब्लेम” वर लक्ष केंद्रित करण्यासाठी कीथ मॅकएलवीन यांनी 2008 मध्ये वेव्ह सायन्सेसची स्थापना केली.

उत्तर, तो म्हणतो, खोलीत ते मूलतः कोठून आले यावर आधारित सर्व स्पर्धात्मक ध्वनी शोधण्यासाठी आणि स्क्रीन आउट करण्याचा प्रयत्न करण्यासाठी AI चा वापर करणे हे होते.

याचा अर्थ फक्त इतर लोक जे बोलत असतील असा नाही – खोलीभोवती ज्या प्रकारे ध्वनी परावर्तित होतात त्यामध्ये लक्षणीय प्रमाणात हस्तक्षेप देखील होतो, लक्ष्य स्पीकरचा आवाज प्रत्यक्ष आणि अप्रत्यक्षपणे ऐकला जातो.

परिपूर्ण anechoic मध्ये चेंबर – प्रतिध्वनीपासून पूर्णपणे मुक्त – प्रत्येक स्पीकर काय म्हणत आहे ते उचलण्यासाठी एक मायक्रोफोन पुरेसा असेल; परंतु वास्तविक खोलीत, प्रत्येक परावर्तित आवाजासाठी देखील समस्येसाठी मायक्रोफोन आवश्यक आहे.

मिस्टर मॅकएलवीन यांनी 2009 मध्ये वेव्ह सायन्सेसची स्थापना केली, एक तंत्रज्ञान विकसित करण्याच्या आशेने जे अतिव्यापी आवाज वेगळे करू शकेल. सुरुवातीला फर्मने ॲरे बीमफॉर्मिंग म्हणून ओळखल्या जाणाऱ्या मायक्रोफोन्सचा मोठ्या प्रमाणात वापर केला.

तथापि, संभाव्य व्यावसायिक भागीदारांकडील अभिप्राय असा होता की सिस्टमला अनेक परिस्थितींमध्ये चांगले परिणाम देण्यासाठी खर्चासाठी खूप जास्त मायक्रोफोन आवश्यक आहेत – आणि इतर बऱ्याच परिस्थितींमध्ये ते कार्य करणार नाही.

“सर्वसामान्य परावृत्त असा होता की जर आम्ही त्या चिंतेवर उपाय शोधू शकलो तर त्यांना खूप रस असेल,” श्री मॅकएलवीन म्हणतात.

आणि, तो जोडतो: “आम्हाला माहित होते की तेथे एक उपाय असणे आवश्यक आहे, कारण आपण ते फक्त दोन कानांनी करू शकता.”

कंपनीने 10 वर्षांच्या अंतर्गत निधीच्या संशोधनानंतर शेवटी समस्या सोडवली आणि सप्टेंबर 2019 मध्ये पेटंट अर्ज दाखल केला.

Keith McElveen किथ McElveen च्या संगणकाच्या स्क्रीनवर ध्वनी लहरीकीथ मॅकएलवीन

“कॉकटेल पार्टीची समस्या” सोडवण्यासाठी वेव्ह सायन्सेसला 10 वर्षे लागली

मायक्रोफोन किंवा कानापर्यंत पोहोचण्याआधी खोलीभोवती आवाज कसा बाऊंस होतो याचे विश्लेषण करू शकणारे एआय त्यांच्याकडे आले होते.

“आम्ही ध्वनी प्रत्येक मायक्रोफोनवर येताच पकडतो, तो कोठून आला हे शोधण्यासाठी मागे पडतो आणि मग थोडक्यात, व्यक्ती बसलेल्या ठिकाणाहून येऊ शकणारा कोणताही आवाज आम्ही दाबतो,” श्री मॅकएलवीन म्हणतात.

जेव्हा कॅमेरा एका विषयावर फोकस करतो आणि अग्रभाग आणि पार्श्वभूमी अस्पष्ट करतो तेव्हा प्रभाव काही विशिष्ट बाबतीत तुलना करता येतो.

“जेव्हा तुम्ही शिकण्यासाठी फक्त खूप गोंगाट करणारे रेकॉर्डिंग वापरू शकता तेव्हा परिणाम स्पष्ट वाटत नाहीत, परंतु तरीही ते आश्चर्यकारक आहेत.”

तंत्रज्ञानाचा यूएस खून खटल्यात पहिला वास्तविक-जगातील फॉरेन्सिक वापर झाला, जिथे ते पुरावे प्रदान करण्यास सक्षम होते ते दोषींना केंद्रस्थानी सिद्ध करते.

एका माणसाला मारल्याबद्दल दोन हिटमॅनला अटक केल्यानंतर, एफबीआयला हे सिद्ध करायचे होते की त्यांना मुलांच्या ताब्यात असलेल्या विवादातून जात असलेल्या कुटुंबाने कामावर घेतले होते. एफबीआयने त्यांच्या सहभागासाठी त्यांना ब्लॅकमेल केले जात असल्याचा विश्वास कुटुंबाला फसवण्याची व्यवस्था केली – आणि नंतर प्रतिक्रिया पाहण्यासाठी बसले.

मजकूर आणि फोन कॉल्स FBI ला वैयक्तिकरित्या प्रवेश करणे वाजवी सोपे होते दोन रेस्टॉरंटमधील बैठका ही वेगळी बाब होती. परंतु न्यायालयाने वेव्ह सायन्सेसच्या अल्गोरिदमचा वापर करण्यास अधिकृत केले, याचा अर्थ असा की ऑडिओ अग्राह्यतेपासून पुराव्याच्या महत्त्वपूर्ण भागापर्यंत गेला.

तेव्हापासून, यूकेसह इतर सरकारी प्रयोगशाळांनी ते चाचण्यांच्या बॅटरीद्वारे ठेवले आहे. कंपनी आता हे तंत्रज्ञान अमेरिकन सैन्याला मार्केटिंग करत आहे, ज्याने सोनार सिग्नलचे विश्लेषण करण्यासाठी त्याचा वापर केला आहे.

यात ओलिस वाटाघाटी आणि आत्महत्या परिस्थितींमध्ये देखील अनुप्रयोग असू शकतात, श्री मॅकएलवीन म्हणतात, संभाषणाच्या दोन्ही बाजू ऐकल्या जाऊ शकतात याची खात्री करण्यासाठी – फक्त मेगाफोनसह वाटाघाटी करणारा नाही.

गेल्या वर्षीच्या शेवटी, कंपनीने ऑडिओ फॉरेन्सिक आणि ध्वनिक विश्लेषण करणाऱ्या सरकारी लॅबद्वारे वापरण्यासाठी त्याचे लर्निंग अल्गोरिदम वापरून सॉफ्टवेअर ॲप्लिकेशन जारी केले.

Getty Images एक तरुण आई आणि तिचा तरुण मुलगा त्यांच्या समोरच्या टेबलावर एका स्मार्ट स्पीकरशी बोलत आहेतगेटी प्रतिमा

अखेरीस Wave ला स्मार्ट स्पीकरमध्ये वापरण्यासाठी त्याच्या उत्पादनाच्या आवृत्त्या लाँच करायच्या आहेत

अखेरीस ऑडिओ रेकॉर्डिंग किट, कारसाठी व्हॉईस इंटरफेस, स्मार्ट स्पीकर, ऑगमेंटेड आणि व्हर्च्युअल रिॲलिटी, सोनार आणि श्रवणयंत्र उपकरणे वापरण्यासाठी त्याच्या उत्पादनाच्या अनुकूल आवृत्त्या सादर करण्याचे त्याचे उद्दिष्ट आहे.

म्हणून, उदाहरणार्थ, जर तुम्ही तुमच्या कार किंवा स्मार्ट स्पीकरशी बोललात तर तुमच्या आजूबाजूला खूप गोंगाट होत असला तरी काही फरक पडत नाही, तरीही तुम्ही काय म्हणत आहात हे डिव्हाइस शोधण्यात सक्षम असेल.

फॉरेन्सिक सायन्स अकादमीचे फॉरेन्सिक शिक्षक टेरी आर्मेंटा यांच्या म्हणण्यानुसार, एआय आधीच फॉरेन्सिकच्या इतर क्षेत्रांमध्ये देखील वापरला जात आहे.

“एमएल [machine learning] मॉडेल स्पीकर्सची ओळख निश्चित करण्यासाठी व्हॉइस पॅटर्नचे विश्लेषण करतात, ही प्रक्रिया विशेषत: गुन्हेगारी तपासांमध्ये उपयुक्त आहे जिथे आवाजाचे पुरावे प्रमाणीकृत करणे आवश्यक आहे,” ती म्हणते.

“याशिवाय, एआय टूल्स ऑडिओ रेकॉर्डिंगमध्ये फेरफार किंवा बदल शोधू शकतात, कोर्टात सादर केलेल्या पुराव्याची अखंडता सुनिश्चित करतात.”

आणि AI देखील ऑडिओ विश्लेषणाच्या इतर पैलूंमध्ये प्रवेश करत आहे.

बॉश समरजित दास बॉश साउंडसी धरून आहेतबॉश

SoundSee सोबत समरजीत दास जे कारच्या बिघाडाचा अंदाज येण्यापूर्वीच सांगू शकतात

बॉशकडे साउंडसी नावाचे तंत्रज्ञान आहे, जे विश्लेषण करण्यासाठी ऑडिओ सिग्नल प्रोसेसिंग अल्गोरिदम वापरते, उदाहरणार्थ, एखाद्या मोटरच्या आवाजात बिघाड होण्यापूर्वी त्याचा अंदाज लावण्यासाठी.

बॉश यूएसए मधील संशोधन आणि तंत्रज्ञान संचालक डॉ समरजित दास म्हणतात, “पारंपारिक ऑडिओ सिग्नल प्रोसेसिंग क्षमतांमध्ये आवाज समजून घेण्याची क्षमता कमी आहे.

“ऑडिओ एआय आपल्या सभोवतालच्या गोष्टींच्या आवाजाची सखोल समज आणि अर्थपूर्ण व्याख्या सक्षम करते – उदाहरणार्थ, पर्यावरणीय ध्वनी किंवा मशीनमधून निघणारे ध्वनी संकेत.”

वेव्ह सायन्सेस अल्गोरिदमच्या अलीकडील चाचण्यांमधून असे दिसून आले आहे की, फक्त दोन मायक्रोफोनसह, तंत्रज्ञान मानवी कानाप्रमाणेच चांगले कार्य करू शकते – जेव्हा अधिक मायक्रोफोन जोडले जातात.

आणि त्यांनी आणखी एक गोष्ट उघड केली.

“आमच्या सर्व चाचण्यांमधील गणित मानवी श्रवणशक्तीशी विलक्षण समानता दर्शविते. आपले अल्गोरिदम काय करू शकते आणि ते किती अचूकपणे करू शकते याबद्दल काही विचित्रता आहेत, जे मानवी श्रवणात अस्तित्त्वात असलेल्या काही विषमतांसारखे आश्चर्यकारकपणे समान आहेत,” मॅकेल्वीन म्हणतात. .

“आम्हाला शंका आहे की मानवी मेंदू समान गणित वापरत असावा – की कॉकटेल पार्टीची समस्या सोडवताना, मेंदूमध्ये खरोखर काय घडत आहे यावर आपण अडखळले असावे.”



Source link