科技云報(bào)到:從鸚鵡學(xué)舌到靈魂對(duì)話,AI的“人話變革”
2030年,一位老人對(duì)家庭機(jī)器人說(shuō):“我想念年輕時(shí)在西湖劃船的日子。”AI不僅能調(diào)出當(dāng)年的老照片,還能結(jié)合實(shí)時(shí)天氣與老人健康數(shù)據(jù),規(guī)劃一場(chǎng)安全舒適的懷舊之旅,并同步預(yù)約無(wú)人游船。當(dāng)機(jī)器對(duì)人類(lèi)產(chǎn)生“主動(dòng)關(guān)懷”,標(biāo)志著AI從工具進(jìn)化為“生活伴侶”。
從醫(yī)療問(wèn)診到教育輔導(dǎo),從客戶(hù)服務(wù)到城市治理,對(duì)話式AI正在突破虛擬與現(xiàn)實(shí)的邊界,成為推動(dòng)社會(huì)升級(jí)的“超級(jí)接口”。而這場(chǎng)變革的重點(diǎn),正是“人話”背后的大模型進(jìn)化邏輯。
重塑人與機(jī)器交互模式
在計(jì)算機(jī)科學(xué)的早期階段,研究人員就開(kāi)始嘗試構(gòu)建能夠進(jìn)行基本對(duì)話的機(jī)器。然而,由于計(jì)算能力有限,早期的交流機(jī)器往往只能執(zhí)行預(yù)定的對(duì)話腳本,無(wú)法真正理解和生成自然語(yǔ)言。
20世紀(jì)60年代,技術(shù)史上首要個(gè)被引用的聊天機(jī)器人是ELIZA,它于1966年由麻省理工學(xué)院的Joseph Weizenbaum開(kāi)發(fā),旨在模仿心理治療師的語(yǔ)言模式,可以與人類(lèi)用戶(hù)進(jìn)行簡(jiǎn)單的對(duì)話。它是聊天機(jī)器人的首批示例之一,為開(kāi)發(fā)更高級(jí)的對(duì)話式AI系統(tǒng)奠定了基礎(chǔ)。這些早期的聊天機(jī)器人相對(duì)簡(jiǎn)單,只能處理有限數(shù)量的預(yù)編程響應(yīng)。
隨著自然語(yǔ)言處理、自然語(yǔ)言理解等技術(shù)的出現(xiàn),計(jì)算機(jī)開(kāi)始能夠更好地理解和分析人類(lèi)語(yǔ)言,聊天機(jī)器人發(fā)展成為更高級(jí)的對(duì)話式AI系統(tǒng)。20世紀(jì)80年代,基于規(guī)則的方法和統(tǒng)計(jì)模型逐漸成為主流,這使得系統(tǒng)能夠更準(zhǔn)確地理解用戶(hù)的輸入,同時(shí)能夠以更自然、更直觀的方式理解和回應(yīng)人類(lèi)的語(yǔ)言,甚至可以進(jìn)行更具互動(dòng)性的對(duì)話。
進(jìn)入21世紀(jì),基于深度學(xué)習(xí)的聊天機(jī)器人成為對(duì)話式AI的焦點(diǎn)。有名的開(kāi)放式AI模型如GPT-3,具備了生成自然語(yǔ)言對(duì)話的能力。這些模型能夠進(jìn)行普遍的對(duì)話,從回答問(wèn)題到講述故事,甚至創(chuàng)造詩(shī)歌和音樂(lè)。智能語(yǔ)音助手如Apple的Siri、Google的Google Assistant等開(kāi)始興起,能夠識(shí)別語(yǔ)音指令并提供有用的信息。
對(duì)話式AI將人工智能、自然語(yǔ)言處理和對(duì)話式用戶(hù)界面結(jié)合在一起,可以識(shí)別不同的語(yǔ)言以及意圖、文本和語(yǔ)音語(yǔ)義、消息類(lèi)型(公共或私人)、電子郵件數(shù)據(jù)和其他信息,為客戶(hù)提供無(wú)縫和智能的呼叫路由體驗(yàn)。
更重要的是,對(duì)話式AI技術(shù)可以通過(guò)對(duì)話式交互式語(yǔ)音響應(yīng)(IVR)理解自然語(yǔ)音和意想不到的短語(yǔ)以及上下文。他們甚至可以表現(xiàn)出情感和口音,以更好地與客戶(hù)互動(dòng)并做出回應(yīng)。
當(dāng)下,對(duì)話式AI系統(tǒng)被用于大量不同的環(huán)境中,遠(yuǎn)非它們?cè)谠缙谥挥谠鰪?qiáng)的常見(jiàn)問(wèn)題解答功能,他們正在為徹底改變?nèi)藗兣c數(shù)字世界的交互方式。通過(guò)不斷優(yōu)化的算法和模型,對(duì)話式AI系統(tǒng)已經(jīng)能夠處理多種語(yǔ)言和方言,并在嘈雜的環(huán)境下也能保持高準(zhǔn)確率。這使得對(duì)話式AI系統(tǒng)在醫(yī)療、教育、客服等領(lǐng)域的應(yīng)用前景廣闊。例如,在醫(yī)療領(lǐng)域,醫(yī)生可以通過(guò)對(duì)話式AI技術(shù)快速記錄病歷,減少手動(dòng)輸入的時(shí)間。在教育領(lǐng)域,對(duì)話式AI技術(shù)可以幫助學(xué)生進(jìn)行發(fā)音訓(xùn)練,提高學(xué)習(xí)效果。
此外,對(duì)話式AI技術(shù)使企業(yè)能夠保持全天候的客戶(hù)服務(wù),無(wú)縫處理咨詢(xún)、安排預(yù)約和處理交易。這有效地消除了傳統(tǒng)營(yíng)業(yè)時(shí)間的限制,確保了持續(xù)的在線可用性,與過(guò)去的局限性形成鮮明對(duì)比。
對(duì)于消費(fèi)者而言,對(duì)話式AI將成為與AI交互的主要模式,這種交互可能表現(xiàn)為隨時(shí)可用的伴侶或?qū)煟蛘咄ㄟ^(guò)使語(yǔ)言學(xué)習(xí)等服務(wù)更普遍地可用。
比爾·蓋茨曾撰文指出,AI將在未來(lái)五年里徹底改變我們使用計(jì)算機(jī)的方式。在他的暢想中,用戶(hù)只需用自然語(yǔ)言告知自己的需求,計(jì)算機(jī)就會(huì)自動(dòng)跨越不同軟件程序完成任務(wù),讓每個(gè)人都能擁有的“遠(yuǎn)遠(yuǎn)超出當(dāng)今技術(shù)的AI驅(qū)動(dòng)個(gè)人助理”。
讓大模型“能說(shuō)會(huì)道”的關(guān)鍵路徑
從場(chǎng)景角度來(lái)看,多場(chǎng)景的應(yīng)用加速了對(duì)話式AI產(chǎn)品的落地。具體來(lái)看,對(duì)話式AI產(chǎn)品的應(yīng)用場(chǎng)景可以分為兩大類(lèi):一類(lèi)是消費(fèi)級(jí)場(chǎng)景,另一類(lèi)是企業(yè)級(jí)場(chǎng)景。在兩大服務(wù)場(chǎng)景下又可劃分出諸多細(xì)分場(chǎng)景,比如消費(fèi)級(jí)場(chǎng)景包括語(yǔ)音助手、智能車(chē)載、智能穿戴、智能家居等領(lǐng)域;在企業(yè)級(jí)場(chǎng)景,對(duì)話式AI產(chǎn)品已經(jīng)逐漸滲透至營(yíng)銷(xiāo)、客服外呼等多種場(chǎng)景。在此背景下,對(duì)話式AI產(chǎn)品落地速度加快。
從需求方面來(lái)看,需求端的持續(xù)增長(zhǎng),成為了對(duì)話式AI行業(yè)發(fā)展的重要驅(qū)動(dòng)力。場(chǎng)景的拓展是對(duì)話式AI蓬勃發(fā)展的一方面原因,消費(fèi)級(jí)和企業(yè)級(jí)場(chǎng)景需求的雙重爆發(fā),也對(duì)對(duì)話式AI的發(fā)展起到了促進(jìn)作用。隨著數(shù)字經(jīng)濟(jì)的發(fā)展,人工智能逐漸深入千行百業(yè),同行業(yè)的聯(lián)系也愈發(fā)緊密,行業(yè)、企業(yè)不僅加快了數(shù)字化轉(zhuǎn)型的腳步,也在朝著智能化方面升級(jí)。
在生成式AI的浪潮下,行業(yè)普遍認(rèn)為多模態(tài)大模型是實(shí)現(xiàn)AGI的必經(jīng)之路。畢竟一問(wèn)一答文本輸入的機(jī)械方式,遠(yuǎn)不如文本、圖片、語(yǔ)音互動(dòng)來(lái)得真實(shí)、自然和智能。
隨著大模型從文本走向多模態(tài)交互,多模態(tài)模型架構(gòu)和訓(xùn)練范式變化不大,提升主要依賴(lài)數(shù)據(jù)質(zhì)量和數(shù)量。實(shí)現(xiàn)多模態(tài)交互的關(guān)鍵在于將不同模態(tài)信息轉(zhuǎn)化到同一語(yǔ)境,目前ASR(自動(dòng)語(yǔ)音識(shí)別)技術(shù)的發(fā)展有助于實(shí)現(xiàn)這一點(diǎn)。
但要讓交互體驗(yàn)更好,還需提升模型推理速度,解決如多角色長(zhǎng)短期記憶、區(qū)分角色等工程化問(wèn)題,同時(shí)也要應(yīng)對(duì)不同模態(tài)交互中的復(fù)雜情況,如語(yǔ)音語(yǔ)義差異、視頻處理等。
如何更好將對(duì)話式AI技術(shù)與應(yīng)用場(chǎng)景進(jìn)行無(wú)縫對(duì)接,實(shí)現(xiàn)技術(shù)與場(chǎng)景融合帶來(lái)的“乘數(shù)效應(yīng)”,是企業(yè)需要思考的重要問(wèn)題。
比如近期聲網(wǎng)就發(fā)布了對(duì)話式AI引擎,憑借650ms比較低延時(shí)響應(yīng)、優(yōu)雅打斷、全模型適配等五大能力,對(duì)話式AI引擎可支持任意文本大模型快速升級(jí)為“能說(shuō)會(huì)道”的對(duì)話式多模態(tài)大模型。
開(kāi)發(fā)者可以快速部署智能助手、虛擬陪伴、口語(yǔ)陪練、智能客服、智能硬件等對(duì)話式AI場(chǎng)景。例如智能助手場(chǎng)景可以通過(guò)自然語(yǔ)言交互,幫助人們進(jìn)行日程管理、信息查詢(xún)和任務(wù)執(zhí)行,提升生活便利性,并提高工作效率。
通過(guò)將對(duì)話式AI引擎嵌入進(jìn)智能硬件,還能實(shí)現(xiàn)語(yǔ)音控制、智能看護(hù)、智能陪伴和個(gè)性化服務(wù),將智能設(shè)備升級(jí)為智能硬件體。適用于AI玩具、AI教育硬件、AI陪伴設(shè)備、家居語(yǔ)音助手、穿戴設(shè)備個(gè)人助手等多種應(yīng)用場(chǎng)景。
不可否認(rèn),即便是進(jìn)入新的發(fā)展階段,對(duì)話式AI也仍受難題桎梏。
相較于之前,支撐對(duì)話式AI產(chǎn)品的底層技術(shù)已經(jīng)實(shí)現(xiàn)了長(zhǎng)足進(jìn)步,卻也并非盡善盡美。以對(duì)話式AI應(yīng)用極為普遍的智能客服領(lǐng)域?yàn)槔m然智能客服的應(yīng)用能夠在較大程度上解放人工客服壓力,但受技術(shù)因素影響,智能客服的智能化程度仍然較為有限。據(jù)艾媒咨詢(xún)數(shù)據(jù)顯示,智能客服問(wèn)題解決能力的受認(rèn)可度不容樂(lè)觀,有超過(guò)半數(shù)的用戶(hù)(57.9%)指出,智能客服只幫助他們解決較少問(wèn)題甚至沒(méi)有解決任何問(wèn)題。
同時(shí),語(yǔ)音情緒的識(shí)別也是一大難題。眾所周知,人類(lèi)的語(yǔ)音表達(dá)是帶有情緒色彩的,即便是完全相同的一句話,但由于表達(dá)者情緒的不同,語(yǔ)句所表達(dá)的含義也不盡相同。雖然當(dāng)前的對(duì)話式AI產(chǎn)品已經(jīng)能夠根據(jù)上下文理解語(yǔ)義,并且給出比較好應(yīng)答,但在情緒的感知方面,對(duì)話式AI還是遜色于真人服務(wù)者。倘若語(yǔ)音情緒的識(shí)別無(wú)法突破,也將影響對(duì)話式AI的落地應(yīng)用。
另外,對(duì)話式AI產(chǎn)品逐漸趨同,同質(zhì)化競(jìng)爭(zhēng)加劇。雖然行業(yè)發(fā)展速度加快,但同樣也會(huì)滋生產(chǎn)品同質(zhì)化問(wèn)題,而產(chǎn)品趨同也會(huì)降低對(duì)話式AI廠商的差異性,從而加劇對(duì)話AI廠商的競(jìng)爭(zhēng)難度。從長(zhǎng)遠(yuǎn)角度來(lái)看,對(duì)話式廠商打造差異化產(chǎn)品勢(shì)在必行。
即將發(fā)生的AI新故事
可以預(yù)見(jiàn),未來(lái)的對(duì)話式AI將不僅只局限于語(yǔ)言交互,而是會(huì)與視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種模態(tài)深度融合。例如,在智能家居場(chǎng)景中,用戶(hù)除了通過(guò)語(yǔ)音與智能設(shè)備交流,還可以通過(guò)手勢(shì)、面部表情等方式進(jìn)行交互。智能設(shè)備能夠綜合多種模態(tài)信息,更準(zhǔn)確地理解用戶(hù)意圖,提供更自然、便捷的服務(wù)。
想象一下,當(dāng)你走進(jìn)家門(mén),智能助手不僅能聽(tīng)到你說(shuō) “有點(diǎn)熱”,還能通過(guò)攝像頭觀察到你微微出汗的狀態(tài),然后自動(dòng)調(diào)整空調(diào)溫度,為你創(chuàng)造比較舒適的環(huán)境。
借助強(qiáng)化學(xué)習(xí)技術(shù),對(duì)話式AI能夠在與用戶(hù)的不斷交互中持續(xù)學(xué)習(xí)和優(yōu)化策略。它可以根據(jù)用戶(hù)的反饋和行為,自動(dòng)調(diào)整對(duì)話方式和回答內(nèi)容,以提供更好的服務(wù)體驗(yàn)。而且,隨著自適應(yīng)能力的增強(qiáng),對(duì)話式AI能夠更好地適應(yīng)不同用戶(hù)的需求和習(xí)慣,在不同場(chǎng)景下都能靈活應(yīng)對(duì),不斷提升自身的智能水平和服務(wù)質(zhì)量。
不同行業(yè)對(duì)于對(duì)話式AI的需求存在差異,未來(lái)將出現(xiàn)更多針對(duì)特定行業(yè)的定制化解決方案。在金融領(lǐng)域,對(duì)話式AI可以作為智能理財(cái)顧問(wèn),為客戶(hù)提供專(zhuān)業(yè)的投資建議;在法律行業(yè),能夠輔助律師進(jìn)行法律條文查詢(xún)、案件分析等工作。通過(guò)深入了解各行業(yè)的業(yè)務(wù)流程和專(zhuān)業(yè)知識(shí),定制化的對(duì)話式AI將更好地滿(mǎn)足行業(yè)需求,推動(dòng)各行業(yè)的數(shù)字化轉(zhuǎn)型和智能化發(fā)展。
當(dāng)大模型學(xué)會(huì)說(shuō)“人話”,我們真正面臨的不是技術(shù)問(wèn)題,而是哲學(xué)命題:如果AI能夠完美模仿人類(lèi),那么“人性”的獨(dú)特性何在?或許答案在于,AI終將成為一面鏡子,映照出人類(lèi)對(duì)創(chuàng)新、倫理與存在的永恒思考。
而下一個(gè)新故事,注定由人與AI共同書(shū)寫(xiě)——在醫(yī)院的數(shù)字診室里、在孩子的AI導(dǎo)師屏前,屆時(shí),對(duì)話式AI將為人們帶來(lái)超乎想象的體驗(yàn),一場(chǎng)關(guān)于人機(jī)交互的技術(shù)進(jìn)化已然開(kāi)始。
【關(guān)于科技云報(bào)到】
企業(yè)級(jí)IT領(lǐng)域Top10新媒體。聚焦云計(jì)算、人工智能、大模型、網(wǎng)絡(luò)安全、大數(shù)據(jù)、區(qū)塊鏈等企業(yè)級(jí)科技領(lǐng)域。原創(chuàng)文章和視頻獲工信部官方認(rèn)可,是世界人工智能大會(huì)、數(shù)博會(huì)、國(guó)家網(wǎng)安周、可信云大會(huì)與全球云計(jì)算等大型活動(dòng)的官方指定傳播媒體之一。轉(zhuǎn)載自澎湃新聞