Хэрэглээний тоо, дуут интерфейсийн ач холбогдол хурдацтай нэмэгдэж байна
технологи

Хэрэглээний тоо, дуут интерфейсийн ач холбогдол хурдацтай нэмэгдэж байна

Орегон мужийн Портландад амьдардаг нэгэн америк гэр бүл Алексийн дуут туслах тэдний хувийн чатыг бичиж аваад найз руугаа илгээснийг саяхан мэджээ. Хэвлэл мэдээллийнхэн Даниел гэж хочилдог байшингийн эзэн сэтгүүлчдэд хэлэхдээ "Түүнд итгэх боломжгүй учраас энэ төхөөрөмжийг дахиж хэзээ ч холбохгүй" гэжээ.

Alexa, АНУ-ын хэдэн арван сая байшинд байдаг Echo (1) чанга яригч болон бусад хэрэгслээр хангагдсан бөгөөд хэрэглэгчийн ярьж буй нэр эсвэл "дуудлагын үг"-ийг сонсоод бичлэг хийж эхэлдэг. Энэ нь телевизийн сурталчилгаанд "Alexa" гэсэн үгийг дурдсан байсан ч төхөөрөмж бичлэг хийж эхлэх боломжтой гэсэн үг юм. Энэ тохиолдолд яг ийм зүйл болсон гэж техник хангамжийн борлуулагч Амазон хэлэв.

"Ярианы үлдсэн хэсгийг дуут туслах нь мессеж илгээх тушаал гэж тайлбарласан" гэж компанийн мэдэгдэлд дурджээ. "Хэзээ нэгэн цагт Алекса чанга дуугаар асуув: "Хэн рүү?" Модон шалны тухай гэр бүлийн ярианы үргэлжлэлийг машин үйлчлүүлэгчийн холбоо барих жагсаалтын зүйл гэж ойлгох ёстой." Наад зах нь Amazon ийм бодолтой байна. Тиймээс орчуулга нь хэд хэдэн осол болж багасдаг.

Гэсэн хэдий ч сэтгэлийн түгшүүр хэвээр байна. Яагаад ч юм, бидний сэтгэл амар байсан байшинд бид ямар нэгэн "дуу хоолойны горим" руу орж, юу ярьж байгааг, зурагт юу нэвтрүүлж байгааг, мэдээжийн хэрэг, энэ шинэ чанга яригчийг цээжин дээр нь юу хийж байгааг харах хэрэгтэй. шүүгээ гэж хэлдэг. бид.

Гэсэн хэдий ч, Технологийн төгс бус байдал, хувийн нууцтай холбоотой асуудлуудыг үл харгалзан Amazon Echo зэрэг төхөөрөмжүүдийн нэр хүнд өсөхийн хэрээр хүмүүс дуу хоолойгоо ашиглан компьютертэй харьцах санааг дасгаж эхэлжээ..

Амазоны ерөнхий захирал Вернер Фогелс 2017 оны сүүлээр хийсэн AWS re:Invent хуралдааныхаа үеэр онцлон тэмдэглэснээр технологи нь бидний компьютертэй харилцах чадварыг өнөөг хүртэл хязгаарлаж байна. Бид Google-д түлхүүр үгээ гар ашиглан бичдэг, учир нь энэ нь машинд мэдээлэл оруулах хамгийн түгээмэл бөгөөд хялбар арга хэвээр байна.

Фогелс хэлэв. -

том дөрөв

Google хайлтын системийг утсан дээрээ ашиглахдаа бид удаан хугацааны өмнө ярих дуудлагатай микрофоны тэмдгийг анзаарсан байх. Энэ Google одоо (2), хайлтын асуулга бичих, дуу хоолойгоор мессеж оруулах гэх мэт. Сүүлийн жилүүдэд Google, Apple, Amazon зэрэг нь ихээхэн сайжирсан. дуу хоолой таних технологи. Alexa, Siri, Google Assistant зэрэг дуут туслахууд таны дуу хоолойг бичээд зогсохгүй таны тэдэнд юу хэлснийг ойлгож, асуултад хариулдаг.

Google Now-г бүх Android хэрэглэгчид үнэ төлбөргүй ашиглах боломжтой. Аппликешн нь жишээлбэл, Google газрын зураг дээр сэрүүлэг тавих, цаг агаарын мэдээг шалгах, маршрутыг шалгах боломжтой. Google Now мужуудын харилцан ярианы өргөтгөл Google Туслах () - тоног төхөөрөмжийн хэрэглэгчдэд виртуал тусламж. Энэ нь голчлон гар утасны болон ухаалаг гэрийн төхөөрөмж дээр байдаг. Google Now-аас ялгаатай нь энэ нь хоёр талын солилцоонд оролцох боломжтой. Туслах нь 2016 оны 3-р сард Google мессежийн програмын Allo, мөн Google Home дуут чанга яригч (XNUMX)-ийн нэг хэсэг болгон дебютээ хийсэн.

3. Google Home

IOS систем нь мөн өөрийн гэсэн виртуал туслахтай. Siri, энэ нь Apple-ийн iOS, watchOS, tvOS homepod болон macOS үйлдлийн системд багтсан програм юм. Siri 5 оны 4-р сард "Let's Talk iPhone" хурлын үеэр iOS 2011 болон iPhone XNUMXs-тэй дебютээ хийсэн.

Програм хангамж нь харилцан ярианы интерфейс дээр суурилдаг: энэ нь хэрэглэгчийн байгалийн яриаг таньдаг (iOS 11-тэй бол тушаалуудыг гараар оруулах боломжтой), асуултуудад хариулж, даалгавруудыг гүйцэтгэдэг. Цаг хугацаа өнгөрөхөд туслах машин сургалтын технологи нэвтрүүлсний ачаар хувийн тохиргоонд дүн шинжилгээ хийдэг хэрэглэгч илүү хамааралтай үр дүн, зөвлөмж өгөх. Siri нь байнгын интернет холболт шаарддаг - энд мэдээллийн гол эх сурвалж нь Bing болон Wolfram Alpha юм. iOS 10 нь гуравдагч талын өргөтгөлүүдийн дэмжлэгийг нэвтрүүлсэн.

Дөрвөн томын өөр нэг нь Кортана. Энэ бол Microsoft-ын бүтээсэн ухаалаг хувийн туслах юм. Үүнийг Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, iOS платформууд дээр дэмждэг. Кортана анх 2014 оны XNUMX-р сард Сан Франциско хотод болсон Microsoft Build Developer Conference дээр танилцуулагдсан. Хөтөлбөрийн нэр нь Halo тоглоомын цувралын дүрийн нэрнээс гаралтай. Кортана нь англи, итали, испани, франц, герман, хятад, япон хэл дээр байдаг.

Өмнө дурьдсан програмын хэрэглэгчид Alexa тэд бас хэлний хязгаарлалтыг анхаарч үзэх ёстой - дижитал туслах нь зөвхөн англи, герман, франц, япон хэлээр ярьдаг.

Amazon Virtual Assistant-ийг Amazon Lab126 компанийн бүтээсэн Amazon Echo болон Amazon Echo Dot ухаалаг чанга яригчуудад анх ашигласан. Энэ нь дуу хоолойгоор харилцах, хөгжим тоглуулах, хийх ажлын жагсаалт үүсгэх, сэрүүлэг тохируулах, подкаст цацах, аудио ном тоглуулах, цаг агаар, замын хөдөлгөөн, спорт болон мэдээ (4) зэрэг бусад мэдээ мэдээллийг цаг тухайд нь хийх боломжтой. Alexa нь гэрийн автоматжуулалтын системийг бий болгохын тулд олон ухаалаг төхөөрөмжийг удирдах боломжтой. Үүнийг Amazon дэлгүүрт тохиромжтой худалдаа хийхэд ашиглаж болно.

4. Хэрэглэгчид Echo-г юунд ашигладаг вэ (Судалгааны дагуу)

Хэрэглэгчид Alexa-ийн "ур чадвар" () -ийг суулгаснаар Alexa-ийн туршлагыг сайжруулах боломжтой, гуравдагч этгээдийн боловсруулсан нэмэлт функцууд бөгөөд бусад тохиргоонд цаг агаар, аудио хөтөлбөр гэх мэт програмууд гэж нэрлэдэг. Ихэнх Alexa төхөөрөмжүүд нь виртуал туслахаа сэрээх нууц үгээр идэвхжүүлэх боломжийг олгодог.

Амазон өнөөдөр ухаалаг чанга яригчийн зах зээлд ноёрхож байгаа нь гарцаагүй (5). 2018 оны XNUMX-р сард шинэ үйлчилгээгээ нэвтрүүлсэн IBM компани эхний дөрөвт орохыг хичээж байна Ватсоны туслах, дуут удирдлагатай виртуал туслах өөрийн системийг бий болгох хүсэлтэй компаниудад зориулагдсан. IBM шийдлийн давуу тал юу вэ? Компанийн төлөөлөгчдийн хэлснээр, юуны түрүүнд хувийн тохиргоо, нууцлалыг хамгаалах илүү их боломжууд дээр.

Нэгдүгээрт, Watson Assistant нь брэнд биш юм. Компаниуд энэ платформ дээр өөрсдийн шийдлүүдийг бий болгож, тэдгээрийг өөрийн брэндээр тэмдэглэх боломжтой.

Хоёрдугаарт, тэд өөрсдийн өгөгдлийн багцыг ашиглан туслах системээ сургах боломжтой бөгөөд энэ нь бусад VUI (дуут хэрэглэгчийн интерфэйс) технологитой харьцуулахад тухайн системд функц, тушаал нэмэхэд хялбар болгодог гэж IBM-ийн үзэж байгаагаар.

Гуравдугаарт, Watson Assistant нь IBM-д хэрэглэгчийн үйл ажиллагааны талаарх мэдээллийг өгдөггүй - платформ дээрх шийдлүүдийг хөгжүүлэгчид зөвхөн үнэ цэнэтэй өгөгдлийг өөртөө хадгалах боломжтой. Үүний зэрэгцээ, жишээ нь Alexa-тай төхөөрөмж бүтээдэг хүн бүр үнэ цэнэтэй өгөгдөл нь Амазон дээр дуусна гэдгийг мэдэж байх ёстой.

Watson Assistant аль хэдийн хэд хэдэн хэрэгжүүлэлттэй болсон. Энэ системийг жишээ нь Harman ашигласан бөгөөд Масерати концепцийн машинд дуут туслах бүтээжээ (6). Мюнхений нисэх онгоцны буудал дээр IBM-ийн туслах зорчигчдод туслахын тулд Pepper роботыг ажиллуулдаг. Гурав дахь жишээ бол Chameleon Technologies бөгөөд ухаалаг гэрийн тоолуурт дуут технологи ашигладаг.

6. Maserati концепцийн машинд Watson Assistant

Энд байгаа технологи нь шинэ зүйл биш гэдгийг нэмж хэлэх нь зүйтэй болов уу. Watson Assistant нь одоо байгаа IBM-ийн бүтээгдэхүүнүүд, Watson Conversation, Watson Virtual Agent-д зориулсан шифрлэлтийн чадамж, мөн хэлний шинжилгээ, чат хийх API-г агуулдаг.

Амазон бол ухаалаг дуут технологийн салбарт тэргүүлэгч төдийгүй үүнийг шууд бизнес болгон хувиргаж байна. Гэсэн хэдий ч зарим компаниуд Echo интеграцийг илүү эрт туршиж үзсэн. BI болон аналитик салбарын Sisense компани нь 2016 оны XNUMX-р сард Echo интеграцийг нэвтрүүлсэн. Хариуд нь Roxy стартап зочлох үйлчилгээний салбарт өөрийн дуу хоолойгоор удирддаг программ хангамж, техник хангамжийг бий болгохоор шийджээ. Энэ оны эхээр Synqq гар дээр бичихгүйгээр тэмдэглэл болон хуанлийн бичилтүүдийг нэмэхийн тулд дуу хоолой болон байгалийн хэлээр боловсруулдаг тэмдэглэл хөтлөх программыг нэвтрүүлсэн.

Эдгээр жижиг бизнесүүд бүгд өндөр амбицтай байдаг. Гэхдээ хамгийн гол нь тэд дуут харилцааны платформыг бий болгоход хамгийн чухал тоглогч болох Амазон, Google, Apple, Microsoft-д мэдээлэл дамжуулахыг хэрэглэгч бүр хүсдэггүй гэдгийг мэдсэн.

Америкчууд худалдаж авахыг хүсч байна

2016 онд Google-ийн гар утасны хайлтын нийт хайлтын 20%-ийг дуут хайлт эзэлжээ. Энэ технологийг өдөр тутам ашигладаг хүмүүс түүний хамгийн том давуу талуудын дунд түүний тав тухтай байдал, олон үйлдэлт байдлыг дурддаг. (жишээлбэл, машин жолоодож байхдаа хайлтын системийг ашиглах чадвар).

Visiongain-ийн шинжээчид ухаалаг дижитал туслахуудын өнөөгийн зах зээлийн үнэ цэнийг 1,138 тэрбум доллар гэж тооцоолж байна.Ийм механизм улам олон болж байна. Gartner-ийн мэдээлснээр 2018 оны эцэс гэхэд аль хэдийн Бидний харилцааны 30% Технологийн хувьд дуут системтэй харилцан яриа хийх замаар явагдана.

Британийн судалгааны IHS Markit фирмийн тооцоолсноор хиймэл оюун ухаанаар ажилладаг дижитал туслахуудын зах зээл энэ оны эцэс гэхэд 4 тэрбум төхөөрөмжид хүрч, 2020 он гэхэд энэ тоо 7 тэрбумд хүрч магадгүй байна.

eMarketer болон VoiceLabs-ийн мэдээлснээр 2017 онд 35,6 сая америкчууд сард дор хаяж нэг удаа дуу хоолойгоор удирдаж байсан. Энэ нь өмнөх оныхоос бараг 130%-иар өссөн гэсэн үг. Зөвхөн дижитал туслахын зах зээл 2018 онд 23 хувиар өсөх төлөвтэй байна. Энэ нь та тэдгээрийг аль хэдийн ашиглах болно гэсэн үг юм. 60,5 сая америкчууд, энэ нь тэдний үйлдвэрлэгчдэд тодорхой мөнгө олох болно. RBC Capital Markets-ийн тооцоолсноор Alexa интерфейс нь 2020 он гэхэд Amazon-д 10 тэрбум долларын орлого олох болно.

Угаах, жигнэх, цэвэрлэх!

Дуут интерфейс нь гэр ахуйн цахилгаан хэрэгсэл, цахилгаан барааны зах зээлд улам бүр зоригтой нэвтэрч байна. Үүнийг өнгөрсөн жилийн IFA 2017 үзэсгэлэнгийн үеэр аль хэдийн харж болохоор байсан.Америкийн Neato Robotics компани жишээ нь Amazon Echo систем зэрэг хэд хэдэн ухаалаг гэрийн платформуудын нэгэнд холбогддог робот тоос сорогчийг танилцуулсан. Та Echo ухаалаг чанга яригчтай ярилцсанаар өдөр, шөнийн тодорхой цагт байшингаа бүхэлд нь цэвэрлэхийг машинд зааж өгч болно.

Үзэсгэлэнгийн үеэр Туркийн Vestel компанийн Toshiba брэндээр худалдаалж буй ухаалаг зурагтаас эхлээд Германы Beurer компанийн халаадаг хөнжил зэрэг дуу хоолойгоор ажилладаг бусад бүтээгдэхүүнүүдийг дэлгэн үзүүлсэн юм. Эдгээр электрон төхөөрөмжүүдийн ихэнхийг ухаалаг утас ашиглан алсаас идэвхжүүлэх боломжтой.

Гэсэн хэдий ч Bosch-ийн төлөөлөгчдийн үзэж байгаагаар гэрийн туслахуудын аль нь давамгайлахыг хэлэхэд эрт байна. IFA 2017 үзэсгэлэнд Германы техникийн групп Echo-д холбогддог угаалгын машин (7), зуух болон кофены машинуудыг үзүүлэв. Bosch мөн өөрийн төхөөрөмжүүдийг ирээдүйд Google болон Apple-ийн дуут платформтой нийцүүлэхийг хүсч байна.

7. Amazon Echo-д холбогддог Bosch угаалгын машин

Fujitsu, Sony, Panasonic зэрэг компаниуд өөрсдийн хиймэл оюун ухаанд суурилсан дуут туслах шийдлүүдийг боловсруулж байна. Sharp энэ технологийг зах зээлд нэвтэрч буй зуух, жижиг роботуудад нэмж байна. Nippon Telegraph & Telephone нь дуу хоолойгоор удирддаг хиймэл оюун ухааны системийг тохируулахын тулд техник хэрэгсэл, тоглоом үйлдвэрлэгчдийг ажилд авч байна.

Хуучин ойлголт. Эцэст нь түүний цаг ирсэн үү?

Үнэн хэрэгтээ, дуут хэрэглэгчийн интерфэйс (VUI) гэсэн ойлголт олон арван жилийн туршид бий болсон. Олон жилийн өмнө Star Trek эсвэл 2001: A Space Odyssey киног үзсэн хэн бүхэн 2000 онд бид бүгд өөрсдийн дуу хоолойгоор компьютерээ удирдана гэж бодож байсан байх. Түүнчлэн, энэ төрлийн интерфейсийн боломжийг зөвхөн шинжлэх ухааны зөгнөлт зохиолчид олж харсангүй. 1986 онд Nielsen-ийн судлаачид МТ-ийн мэргэжилтнүүдээс 2000 он гэхэд хэрэглэгчийн интерфэйс дэх хамгийн том өөрчлөлт юу байх талаар асуусан. Тэд ихэвчлэн дуут интерфейсийг хөгжүүлэхийг онцлон тэмдэглэдэг.

Ийм шийдэлд найдаж болох шалтгаан бий. Эцсийн эцэст аман харилцаа бол хүмүүсийн ухамсартайгаар бодлоо солилцох хамгийн байгалийн арга бөгөөд үүнийг хүн-машины харилцан үйлчлэлд ашиглах нь өнөөг хүртэл хамгийн сайн шийдэл мэт санагдаж байна.

Эхний VUI-ийн нэг, гэж нэрлэдэг гутлын хайрцаг, 60-аад оны эхээр IBM компани бүтээсэн. Энэ нь өнөөгийн дуу хоолой таних системийн анхдагч байсан юм. Гэсэн хэдий ч VUI төхөөрөмжүүдийн хөгжил нь тооцоолох чадлын хязгаараар хязгаарлагдаж байв. Хүний яриаг бодит цаг хугацаанд задлан шинжилж, тайлбарлах нь маш их хүчин чармайлт шаарддаг бөгөөд үүнийг бодитоор хийх боломжтой болтол нь тавин жилийг зарцуулсан.

Дуут интерфэйстэй төхөөрөмжүүд 90-ээд оны дунд үеэс масс үйлдвэрлэлд гарч эхэлсэн боловч алдар нэр олж чадаагүй юм. Дуут удирдлагатай (залгах) анхны утас Philips Spark1996 онд гарсан. Гэсэн хэдий ч энэхүү шинэлэг, хэрэглэхэд хялбар төхөөрөмж нь технологийн хязгаарлалтаас ангид байсангүй.

Дуут интерфэйсийн хэлбэрээр тоноглогдсон бусад утаснууд (RIM, Samsung эсвэл Motorola зэрэг компаниудын бүтээсэн) зах зээлд тогтмол гарч, хэрэглэгчдэд дуу хоолойгоор залгах эсвэл мессеж илгээх боломжийг олгодог. Гэсэн хэдий ч тэд бүгд тодорхой тушаалуудыг цээжилж, тухайн үеийн төхөөрөмжүүдийн хүчин чадалд тохируулан албадан, хиймэл хэлбэрээр дуудах шаардлагатай байв. Энэ нь олон тооны алдааг үүсгэсэн бөгөөд энэ нь эргээд хэрэглэгчдийн сэтгэл ханамжгүй байдалд хүргэсэн.

Гэсэн хэдий ч бид одоо компьютерийн шинэ эрин үе рүү орж байгаа бөгөөд энэ үед машин суралцах болон хиймэл оюун ухааны дэвшил нь технологитой харилцах шинэ арга болох харилцан ярианы боломжийг нээж байна (8). Дуут харилцан үйлчлэлийг дэмждэг төхөөрөмжүүдийн тоо нь VUI-ийн хөгжилд ихээхэн нөлөөлсөн чухал хүчин зүйл болсон. Өнөөдөр дэлхийн хүн амын бараг 1/3 нь энэ төрлийн зан үйлд ашиглаж болох ухаалаг утас эзэмшдэг. Ихэнх хэрэглэгчид өөрсдийн дуут интерфейсийг тохируулахад бэлэн болсон бололтой.

8. Дуут интерфейсийн хөгжлийн орчин үеийн түүх

Гэсэн хэдий ч бид A Space Odyssey киноны баатруудын адил компьютертэй чөлөөтэй ярихын өмнө хэд хэдэн бэрхшээлийг даван туулах ёстой. Машинууд хэл шинжлэлийн нюансуудыг зохицуулахдаа тийм ч сайн биш хэвээр байна. Түүнээс гадна Олон хүмүүс хайлтын системд дуут тушаал өгөхөд эвгүй санагддаг.

Статистик мэдээллээс харахад дуут туслахуудыг ихэвчлэн гэртээ эсвэл ойр дотны найзуудын дунд ашигладаг. Ярилцлагад хамрагдсан хүмүүсийн хэн нь ч олон нийтийн газар дуут хайлт ашигласан гэдгээ хүлээн зөвшөөрөөгүй. Гэсэн хэдий ч энэ технологи тархсанаар энэ түгжрэл арилах магадлалтай.

техникийн хувьд хэцүү асуулт

Системд (ASR) тулгардаг асуудал бол ярианы дохионоос хэрэгтэй өгөгдлийг гаргаж аваад тухайн хүнд тодорхой утгатай үгтэй холбох явдал юм. Үүсгэсэн дуу чимээ нь цаг бүрт өөр өөр байдаг.

Ярианы дохионы хэлбэлзэл Энэ нь түүний байгалийн шинж чанар бөгөөд үүний ачаар бид жишээлбэл өргөлт эсвэл аялгууг таньдаг. Яриа таних системийн элемент бүр тодорхой үүрэг даалгавартай байдаг. Боловсруулсан дохио болон түүний параметрүүд дээр үндэслэн хэлний загвартай холбоотой акустик загварыг бий болгодог. Таних систем нь цөөн эсвэл олон тооны хэв маягийн үндсэн дээр ажиллах боломжтой бөгөөд энэ нь түүний ажиллаж буй үгсийн сангийн хэмжээг тодорхойлдог. Тэд байж магадгүй жижиг толь бичгүүд бие даасан үг эсвэл командыг таних системүүдийн хувьд, түүнчлэн том мэдээллийн сан хэлний багцтай дүйцэхүйц зүйлийг агуулсан, хэлний загварыг (дүрэм) харгалзан үзнэ.

Эхний ээлжинд дуут интерфейстэй тулгардаг асуудлууд яриаг зөв ойлгох, жишээлбэл, дүрмийн бүх дарааллыг ихэвчлэн орхигдуулдаг, хэл шинжлэлийн болон авианы алдаа, алдаа, орхигдуулсан, ярианы гажиг, ижил утгатай үг, үндэслэлгүй давталт гэх мэт. Эдгээр бүх ACP системүүд хурдан бөгөөд найдвартай ажиллах ёстой. Наад зах нь эдгээр нь хүлээлт юм.

Хэцүү байдлын эх үүсвэр нь таних системийн оролт руу орж буй танигдсан ярианаас бусад дуут дохио юм, i.e. бүх төрлийн хөндлөнгийн оролцоо ба дуу чимээ. Хамгийн энгийн тохиолдолд танд хэрэгтэй болно шүүнэ. Энэ даалгавар нь энгийн бөгөөд хялбар мэт санагддаг - эцэст нь янз бүрийн дохиог шүүж, электроникийн инженер бүр ийм нөхцөлд юу хийхээ мэддэг. Гэсэн хэдий ч яриа таних үр дүн нь бидний хүлээлтэд нийцэх юм бол үүнийг маш болгоомжтой, болгоомжтой хийх ёстой.

Одоо ашиглагдаж байгаа шүүлтүүр нь ярианы дохионы хамт микрофоноос авсан гадаад дуу чимээ, ярианы дохионы дотоод шинж чанарыг арилгах боломжийг олгодог бөгөөд үүнийг танихад хэцүү болгодог. Гэсэн хэдий ч, шинжилж буй ярианы дохионд хөндлөнгөөс оролцох нь ... өөр ярианы дохио, тухайлбал, эргэн тойронд чанга яриа хэлэлцээ хийх үед техникийн илүү төвөгтэй асуудал үүсдэг. Энэ асуултыг уран зохиолд гэж нэрлэдэг. Энэ нь аль хэдийн нарийн төвөгтэй аргуудыг ашиглахыг шаарддаг. задрал (тайлах) дохио.

Яриа танихтай холбоотой асуудлууд үүгээр дуусахгүй. Яриа нь олон төрлийн мэдээллийг агуулдаг гэдгийг ойлгох нь зүйтэй. Хүний дуу хоолой нь эзнийхээ хүйс, нас, янз бүрийн дүр төрх эсвэл түүний эрүүл мэндийн байдлыг илэрхийлдэг. Ярианы дохионд илэрсэн өвөрмөц акустик үзэгдлүүд дээр үндэслэн янз бүрийн өвчний оношлогоо хийдэг биоанагаахын инженерийн өргөн хүрээний хэлтэс байдаг.

Ярианы дохионы акустик шинжилгээний гол зорилго нь чанга яригчийг таних эсвэл түүний хэн болохыг баталгаажуулах (түлхүүр, нууц үг эсвэл PUK кодын оронд дуу хоолой) програмууд байдаг. Энэ нь ялангуяа ухаалаг барилгын технологид чухал ач холбогдолтой байж болох юм.

Яриа таних системийн эхний бүрэлдэхүүн хэсэг нь микрофон нь. Гэсэн хэдий ч микрофоноос авсан дохио нь ихэвчлэн бага зэрэг ашиггүй хэвээр үлддэг. Судалгаанаас үзэхэд дууны долгионы хэлбэр, явц нь тухайн хүн, ярианы хурд, зарим талаараа ярилцагчийн сэтгэл санааны байдлаас ихээхэн хамаарч өөр өөр байдаг бөгөөд бага зэрэг нь ярианы командын агуулгыг тусгадаг.

Тиймээс дохиог зөв боловсруулах ёстой. Орчин үеийн акустик, фонетик болон компьютерийн шинжлэх ухаан нь ярианы дохиог боловсруулах, шинжлэх, таних, ойлгоход ашиглаж болох олон тооны хэрэгслийг бий болгодог. Дохионы динамик спектр гэж нэрлэгддэг динамик спектрограммууд. Тэдгээрийг олж авахад нэлээд хялбар бөгөөд динамик спектрограмм хэлбэрээр үзүүлсэн яриа нь дүрсийг танихад ашигладагтай төстэй арга техникийг ашиглан танихад харьцангуй хялбар байдаг.

Хэл ярианы энгийн элементүүдийг (жишээлбэл, командууд) бүхэл спектрограммуудын энгийн ижил төстэй байдлаар таньж болно. Жишээлбэл, дуу хоолойгоор идэвхжүүлдэг гар утасны толь бичиг нь хэдхэн араваас хэдэн зуун үг, хэллэгийг агуулдаг бөгөөд тэдгээрийг амархан бөгөөд үр дүнтэй тодорхойлохын тулд ихэвчлэн урьдчилан овоолсон байдаг. Энэ нь энгийн хяналтын даалгавруудад хангалттай боловч ерөнхий хэрэглээг эрс хязгаарладаг. Схемийн дагуу баригдсан системүүд нь дүрмээр бол зөвхөн тусгайлан бэлтгэгдсэн дуу хоолойтой тодорхой чанга яригчийг дэмждэг. Тиймээс системийг удирдахын тулд дуу хоолойгоо ашиглахыг хүссэн шинэ хүн байгаа бол түүнийг хүлээж авахгүй байх магадлалтай.

Энэ үйлдлийн үр дүнг гэж нэрлэдэг 2-Вт спектрограмм, өөрөөр хэлбэл хоёр хэмжээст спектр. Энэ блок дээр анхаарлаа хандуулах өөр нэг үйл ажиллагаа байдаг - сегментчилэл. Ерөнхийдөө бид тасралтгүй ярианы дохиог тусад нь таних боломжтой хэсгүүдэд хуваах тухай ярьж байна. Зөвхөн эдгээр бие даасан оношилгооноос л бүхэл бүтэн байдлыг хүлээн зөвшөөрдөг. Урт, төвөгтэй яриаг нэг дор тодорхойлох боломжгүй тул энэ процедур зайлшгүй шаардлагатай. Ярианы дохионы аль сегментийг ялгах талаар бүх боть нь аль хэдийн бичигдсэн тул ялгагдах хэсгүүд нь фонем (дууны дүйцэхүйц), үе эсвэл аллофон байх ёстой эсэхийг бид одоо шийдэхгүй.

Автомат таних үйл явц нь объектын зарим шинж чанарыг үргэлж илэрхийлдэг. Ярианы дохиог олон зуун янз бүрийн параметрүүдийг туршиж үзсэн.Ярианы дохио нь байна хүлээн зөвшөөрөгдсөн хүрээ болгон хуваасан мөн байх сонгосон шинж чанаруудЭдгээр фреймүүдийг таних процесст үзүүлснээр бид гүйцэтгэж болно (фрэйм ​​тус бүрийг тусад нь) ангилал, өөрөөр хэлбэл фрэймд ирээдүйд түүнийг илэрхийлэх танигчийг оноож байна.

Дараагийн шат хүрээг тусад нь үг болгон угсрах - ихэвчлэн гэж нэрлэгддэг зүйл дээр тулгуурладаг. Марковын далд загваруудын загвар (HMM-). Дараа нь үгийн монтаж ирдэг бүрэн өгүүлбэр.

Одоо бид түр зуур Alexa систем рүү буцаж болно. Түүний жишээ нь хүнийг машин "ойлгох" олон үе шаттай үйл явцыг харуулж байна - илүү нарийвчлалтай: түүний өгсөн тушаал эсвэл асуусан асуулт.

Үгийг ойлгох, утгыг ойлгох, хэрэглэгчийн зорилгыг ойлгох нь огт өөр зүйл юм.

Тиймээс, дараагийн алхам бол NLP модулийн ажил () юм хэрэглэгчийн зорилгыг таних, өөрөөр хэлбэл тушаал/асуултыг хэлсэн нөхцөл дэх утга. Зорилго нь тодорхойлогдсон бол ур чадвар, чадвар гэж нэрлэгддэг хуваарилалт, өөрөөр хэлбэл ухаалаг туслахын дэмждэг онцлог шинж чанар. Цаг агаарын талаархи асуултын хувьд цаг агаарын мэдээллийн эх сурвалжийг дууддаг бөгөөд үүнийг ярианд боловсруулах шаардлагатай хэвээр байна (TTS - механизм). Үүний үр дүнд хэрэглэгч асуусан асуултын хариултыг сонсдог.

Дуу хоолой? График урлаг уу? Эсвэл хоёулаа байж болох уу?

Орчин үеийн хамгийн алдартай харилцан үйлчлэлийн системүүд нь зуучлагч дээр суурилдаг график хэрэглэгчийн интерфэйс (график интерфейс). Харамсалтай нь GUI нь дижитал бүтээгдэхүүнтэй харилцах хамгийн ойлгомжтой арга биш юм. Энэ нь хэрэглэгчид эхлээд интерфэйсийг хэрхэн ашиглах талаар суралцаж, дараагийн харилцан үйлчлэл бүрт энэ мэдээллийг санаж байхыг шаарддаг. Ихэнх тохиолдолд дуу хоолой нь илүү тохиромжтой байдаг, учир нь та төхөөрөмжтэй ярих замаар VUI-тэй харилцах боломжтой. Хэрэглэгчдийг зарим команд эсвэл харилцан үйлчлэлийн аргыг цээжлэх, цээжлэхийг албаддаггүй интерфейс нь цөөн асуудал үүсгэдэг.

Мэдээжийн хэрэг, VUI-ийн өргөтгөл нь илүү уламжлалт интерфэйсээс татгалзана гэсэн үг биш, харин харилцан үйлчлэлийн хэд хэдэн аргыг хослуулсан эрлийз интерфэйсүүд гарах болно.

Дуут интерфэйс нь гар утасны контекст дэх бүх ажилд тохиромжгүй. Үүний тусламжтайгаар бид машин жолоодож буй найз руугаа утасдаж, тэр байтугай SMS илгээх болно, гэхдээ системд () дамжуулж, систем (систем) -ээс үүсгэсэн мэдээллийн хэмжээнээс шалтгаалан хамгийн сүүлийн шилжүүлгийг шалгах нь хэтэрхий хэцүү байж болно. Рэйчел Хинман Mobile Frontier номондоо дурдсанчлан VUI ашиглах нь оролт, гаралтын мэдээллийн хэмжээ бага байдаг ажлыг гүйцэтгэхэд хамгийн үр дүнтэй байдаг.

Интернэтэд холбогдсон ухаалаг утас нь тохиромжтой ч бас тохиромжгүй (9). Хэрэглэгч ямар нэг зүйл худалдаж авах эсвэл шинэ үйлчилгээ ашиглахыг хүсэх бүрдээ өөр програм татаж аваад шинэ данс үүсгэх шаардлагатай болдог. Энд дуут интерфейсийг ашиглах, хөгжүүлэх талбар бий болсон. Хэрэглэгчдийг олон төрлийн програм суулгах эсвэл үйлчилгээ тус бүрт тусдаа данс үүсгэхийг албадахын оронд VUI нь хиймэл оюун ухаанаар ажилладаг дуут туслах руу шилжүүлнэ гэж мэргэжилтнүүд хэлж байна. Хүчтэй үйл ажиллагаа явуулах нь түүнд тохиромжтой байх болно. Бид түүнд зөвхөн тушаал өгөх болно.

9. Ухаалаг утсаар дамжуулан дуут интерфейс

Өнөөдөр зөвхөн утас, компьютерээс гадна интернетэд холбогдсон байна. Ухаалаг термостат, гэрэл, данх болон бусад олон IoT нэгдсэн төхөөрөмжүүд сүлжээнд холбогдсон байна (10). Тиймээс бидний эргэн тойронд бидний амьдралыг дүүргэдэг утасгүй төхөөрөмжүүд байдаг ч тэдгээр нь бүгдээрээ график хэрэглэгчийн интерфэйстэй нийцдэггүй. VUI ашиглах нь тэдгээрийг манай орчинд хялбархан нэгтгэхэд тусална.

10. Интернетийн зүйлстэй дуут интерфейс

Дуут хэрэглэгчийн интерфэйсийг бий болгох нь удахгүй дизайнерын гол ур чадвар болно. Энэ бол жинхэнэ асуудал юм - дуут системийг хэрэгжүүлэх хэрэгцээ нь таныг идэвхтэй дизайн, өөрөөр хэлбэл ярианы үе шат бүрт хэрэглэгчийн хэрэгцээ, хүлээлтийг урьдчилан таамаглах анхны санаа бодлыг ойлгоход илүү их анхаарал хандуулахыг дэмжих болно.

Дуу хоолой нь өгөгдөл оруулах үр дүнтэй арга бөгөөд энэ нь хэрэглэгчдэд өөрийн нөхцөлөөр системд хурдан тушаал өгөх боломжийг олгодог. Нөгөө талаас, дэлгэц нь мэдээллийг харуулах үр дүнтэй арга юм: энэ нь системүүдэд их хэмжээний мэдээллийг нэгэн зэрэг харуулах боломжийг олгодог бөгөөд энэ нь хэрэглэгчдийн санах ойн ачааллыг бууруулдаг. Тэдгээрийг нэг системд нэгтгэх нь урам зоригтой сонсогдож байгаа нь логик юм.

Amazon Echo болон Google Home зэрэг ухаалаг чанга яригч нь харааны дэлгэцийг огт санал болгодоггүй. Дунд зэргийн зайд дуу хоолойг таних нарийвчлалыг мэдэгдэхүйц сайжруулснаар тэд гар чөлөөтэй ажиллах боломжийг олгодог бөгөөд энэ нь тэдний уян хатан байдал, үр ашгийг нэмэгдүүлдэг - энэ нь дуут удирдлагатай ухаалаг гар утастай хэрэглэгчдэд ч тохиромжтой. Гэсэн хэдий ч дэлгэцийн дутагдал нь асар том хязгаарлалт юм.

Хэрэглэгчдэд боломжит командуудыг мэдэгдэхийн тулд зөвхөн дуут дохиог ашиглах боломжтой бөгөөд гаралтыг чангаар унших нь хамгийн энгийн ажлуудаас бусад тохиолдолд уйтгартай болдог. Хоол хийх явцад дуут командын тусламжтайгаар таймер тохируулах нь гайхалтай боловч хэр их цаг үлдсэнийг асуух шаардлагагүй. Тогтмол цаг агаарын урьдчилсан мэдээ авах нь хэрэглэгчийн ой санамжийн сорилт болж, долоо хоногийн турш олон тооны баримтыг нэг дороос дэлгэцнээс авахаас илүүтэйгээр сонсож, шингээх шаардлагатай болдог.

Загвар зохион бүтээгчид аль хэдийн хийсэн эрлийз шийдэл, Echo Show (11) нь үндсэн Echo ухаалаг чанга яригч дээр дэлгэцийн дэлгэц нэмсэн. Энэ нь төхөөрөмжийн үйл ажиллагааг ихээхэн өргөжүүлдэг. Гэсэн хэдий ч Echo Show нь ухаалаг гар утас, таблет дээр удаан хугацаанд ашиглагдаж байсан үндсэн функцуудыг гүйцэтгэх чадваргүй хэвээр байна. Жишээлбэл, энэ нь вэб хуудсуудаар аялах, шүүмжийг харуулах эсвэл Амазоны дэлгүүрийн агуулгыг харуулах боломжгүй (одоохондоо).

Харааны дэлгэц нь зөвхөн дуу чимээ гэхээсээ илүү олон мэдээллийг хүмүүст хүргэх илүү үр дүнтэй арга юм. Дуу хоолойны давуу талыг ашиглан дизайн хийх нь дуу хоолойны харилцан үйлчлэлийг ихээхэн сайжруулж болох боловч урт хугацаанд харилцан үйлчлэлийн үүднээс харааны цэсийг дур мэдэн ашиглахгүй байх нь нэг гараа нуруундаа зангидсан тулалдахтай адил болно. Ухаалаг дуу хоолой болон дэлгэцийн интерфейсийн нарийн төвөгтэй байдлаас шалтгаалан хөгжүүлэгчид интерфейсийн эрлийз хандлагыг нухацтай авч үзэх хэрэгтэй.

Яриа үүсгэх, таних системийн үр ашиг, хурдыг нэмэгдүүлснээр тэдгээрийг дараахь хэрэглээ, салбарт ашиглах боломжтой болсон.

• цэргийн (онгоц эсвэл нисдэг тэрэгний дуут команд, жишээлбэл, F16 VISTA),

• автомат текст транскрипци (яригаас текст рүү),

• интерактив мэдээллийн систем (Prime Speech, дуут портал),

• хөдөлгөөнт төхөөрөмж (утас, ухаалаг утас, таблет),

• робот техник (Хиймэл оюун ухаантай хослуулсан Cleverbot - ASR систем),

• автомашин (Blue & Me гэх мэт машины эд ангиудыг гараас чөлөөтэй удирдах),

• гэрийн хэрэглээ (ухаалаг гэрийн систем).

Аюулгүй байдлыг анхаарч үзээрэй!

Автомашин, гэр ахуйн цахилгаан хэрэгсэл, халаалт/хөргөлтийн болон гэрийн хамгаалалтын систем, гэр ахуйн цахилгаан хэрэгсэл нь ихэвчлэн хиймэл оюун ухаанд суурилсан дуут интерфейсийг ашиглаж эхэлжээ. Энэ үе шатанд машинуудтай хийсэн сая сая ярианаас олж авсан өгөгдлийг илгээдэг тооцоолох үүл. Маркетерууд тэднийг сонирхож байгаа нь ойлгомжтой. Зөвхөн тэд ч биш.

Symantec-ийн аюулгүй байдлын мэргэжилтнүүдийн саяхан гаргасан тайланд дуут командын хэрэглэгчид гэрийн хамгаалалтын систем битгий хэл хаалганы түгжээ гэх мэт хамгаалалтын функцуудыг хянахгүй байхыг зөвлөж байна. Нууц үг эсвэл нууц мэдээллийг хадгалахад мөн адил хамаарна. Хиймэл оюун ухаан, ухаалаг бүтээгдэхүүний аюулгүй байдлыг хараахан хангалттай судлаагүй байна.

Гэрийн бүх төхөөрөмжүүд үг бүрийг сонсох үед системийг хакердах, буруугаар ашиглах эрсдэл маш чухал асуудал болж хувирдаг. Хэрэв халдагчид дотоод сүлжээ эсвэл түүнтэй холбоотой цахим шуудангийн хаяг руу нэвтэрсэн бол ухаалаг төхөөрөмжийн тохиргоог өөрчлөх эсвэл үйлдвэрийн тохиргоонд оруулах боломжтой бөгөөд энэ нь үнэ цэнэтэй мэдээллийг алдаж, хэрэглэгчийн түүхийг устгахад хүргэдэг.

Өөрөөр хэлбэл, дуу хоолойгоор удирддаг AI болон VUI нь биднийг болзошгүй аюулаас хамгаалж, танихгүй хүн ямар нэг зүйл асуухад амаа хамхих хангалттай ухаалаг биш байна гэж аюулгүй байдлын мэргэжилтнүүд эмээж байна.

сэтгэгдэл нэмэх