分享會上,搜狗公司專家研究員翟飛飛、搜狗杭州研究院首席研究員張奇分別分享了搜狗在翻譯及問答領(lǐng)域的技術(shù)研究及成果。翟飛飛表示,“目前的翻譯常見于基于一個(gè)句子進(jìn)行,但實(shí)際生活中的應(yīng)用范圍卻是場景和篇章,希望通過我們的分享,能夠幫助大家在翻譯上做更多探索。”張奇則對機(jī)器問答技術(shù)進(jìn)行了介紹,“整個(gè)問答就是搜索加上閱讀理解,搜索引擎已從‘搜關(guān)鍵詞得鏈接’發(fā)展到‘搜問句得答案’的時(shí)代。”
擁有龐大用戶量的搜狗,積累了海量數(shù)據(jù)集,此次為大賽開放企業(yè)級數(shù)據(jù)集,一方面,有效解決了AI技術(shù)落地中數(shù)據(jù)集缺失的問題,讓AI技術(shù)更加實(shí)用化地應(yīng)對真實(shí)世界的問題。另一方面,為人工智能產(chǎn)業(yè)發(fā)掘并培養(yǎng)優(yōu)秀人才,促進(jìn)行業(yè)發(fā)展創(chuàng)新。
全球規(guī)模最大數(shù)據(jù)集,助力翻譯體驗(yàn)更加人性化
2017年,搜狗作為主辦方之一,在第一屆AI Challenger中主持翻譯賽道,開放1000萬規(guī)模的中英雙語數(shù)據(jù)集,吸引超2000個(gè)團(tuán)隊(duì)的6000名左右選手參賽。今年,搜狗再次開設(shè)翻譯領(lǐng)域賽道——英中文本機(jī)器翻譯,在去年1000萬級中英雙語數(shù)據(jù)的基礎(chǔ)上,新增300萬帶有上下文情景的雙語數(shù)據(jù),開放1300萬全球規(guī)模最大的口語領(lǐng)域英中雙語對照數(shù)據(jù)集,在開放的中英語料里,搜狗超過千萬級的語料規(guī)模,僅次于聯(lián)合國平行語料庫(億級)。真實(shí)有價(jià)值的企業(yè)級數(shù)據(jù)為機(jī)器翻譯的研究提供更多探索空間,推動(dòng)翻譯產(chǎn)品使用體驗(yàn)更加人性化。
企業(yè)級的數(shù)據(jù)來自于搜狗在機(jī)器翻譯領(lǐng)域的多年積累,翻譯是搜狗AI戰(zhàn)略中的重要一環(huán),且搜狗已取得階段性成果突破,不僅在國際學(xué)術(shù)賽事WMT 2017中層獲得中英和英中機(jī)器翻譯雙向冠軍,并且發(fā)布了全球首次商用基于深度神經(jīng)網(wǎng)絡(luò)的同傳翻譯技術(shù),在領(lǐng)先技術(shù)的支持下,搜狗推出英文搜索、翻譯寶pro等軟硬件產(chǎn)品,率先推動(dòng)AI翻譯技術(shù)走向?qū)嵱没瑢⒓夹g(shù)真正落到實(shí)處。
全球難度最大數(shù)據(jù)集,為提供更精準(zhǔn)的答案積蓄力量
機(jī)器的使命之一是和人做溝通,如何讓人和機(jī)器能夠更自然地溝通交互是當(dāng)前發(fā)展人工智能技術(shù)的前沿議題。隨著人工智能的發(fā)展,問答技術(shù)成為推動(dòng)人與機(jī)器自然溝通的下一個(gè)發(fā)力點(diǎn),問答相當(dāng)于搜索加閱讀理解,即讓機(jī)器先理解問題,然后從海量網(wǎng)頁中尋找問題的答案。
今年的AI Challenger上,除翻譯賽道外,搜狗增設(shè)問答領(lǐng)域賽道:觀點(diǎn)型問題機(jī)器閱讀理解,開放總共30萬規(guī)模的數(shù)據(jù)集,數(shù)據(jù)中包括問題及對應(yīng)短文本和答案。此次開放的問答數(shù)據(jù),不僅是全球難度最大的中文閱讀理解開源數(shù)據(jù)集,同時(shí)也是全球最大的觀點(diǎn)型機(jī)器閱讀理解公開數(shù)據(jù)集。
事實(shí)上,在很多問答比賽中,使用的數(shù)據(jù)并不是真實(shí)問題,而是人為構(gòu)建,與現(xiàn)實(shí)存在很大差距。而搜狗搜索擁有超5億用戶規(guī)模,積累了大量豐富且真實(shí)的數(shù)據(jù)。此次AI challenger大賽,搜狗在問答賽道中針對閱讀理解中較為復(fù)雜的,但是十分典型的觀點(diǎn)型問題構(gòu)建了大規(guī)模語料,語料均來自于用戶的真實(shí)問題和真實(shí)需求,幫助參賽團(tuán)隊(duì)實(shí)現(xiàn)實(shí)用化程度高的研究,提升閱讀理解的研究水平,推動(dòng)問答技術(shù)研究向更高階段發(fā)展。
用AI應(yīng)對真實(shí)世界的問題,讓技術(shù)真正走向生活
在2018 AI Chanllenger開幕式上,搜狗CEO王小川表示,“數(shù)據(jù)是AI研發(fā)的核心,如果沒有真實(shí)的數(shù)據(jù),應(yīng)用場景就會走偏,技術(shù)研究的方向具體的算法就會走向錯(cuò)誤。”
真實(shí)的互聯(lián)網(wǎng)數(shù)據(jù)是展開前沿技術(shù)研究最重要的依靠,早在2006年,搜狗就與清華大學(xué)聯(lián)合成立“清華搜狗搜索技術(shù)聯(lián)合實(shí)驗(yàn)室”,將積累的大數(shù)據(jù)資產(chǎn)開放給高校,共同推動(dòng)前沿技術(shù)研究與進(jìn)步。
此次挑戰(zhàn)賽上,搜狗不僅給出題目和賽道,并在賽道中開放企業(yè)級數(shù)據(jù)集,其重量級、真實(shí)的數(shù)據(jù)集為人工智能的實(shí)際需求研究提供助力,為技術(shù)的應(yīng)用場景保駕護(hù)航。同時(shí),搜狗也將與優(yōu)秀人才進(jìn)一步溝通交流,共同提升研究的實(shí)用性價(jià)值,讓人工智能更加實(shí)用化。
王小川認(rèn)為,“人工智能與人不是取代的關(guān)系,而是配合的關(guān)系,最終將成為人類能力的延伸。”作為人工智能領(lǐng)域的開拓者,搜狗用開放的力量整合創(chuàng)新能力,為人工智能行業(yè)培養(yǎng)并輸送人才,為行業(yè)進(jìn)步和發(fā)展提供內(nèi)驅(qū)力,推動(dòng)中國人工智能領(lǐng)域科研創(chuàng)新。
責(zé)任編輯: