導讀:國外媒體撰文稱,微軟通過互聯網數據挖掘技術開發了一款名為英庫的語言學習工具,并有望借此為必應吸引更多用戶,獲得更多廣告收入。

  以下為文章全文:

  挖掘數據

  微軟位于北京的研究人員正在使用從互聯網中挖掘的數據來改進在線漢英詞典以及語言練習服務。該技術有朝一日將被用在一些類似的工具上,使得所有語言學習者都能夠使用。

  英庫(www.engkoo.com)是“英語”和“倉庫”的合成詞。該產品的核心是翻譯數據。這些數據是微軟在一些獲得出版商授權的詞典中提取出來的。除此之外,微軟還通過對同時具備中英文兩個版本的網站的掃描來充實數據庫。

  微軟的電腦會對這些網站的段落、語句和單詞進行校正,然后計算出一個翻譯的質量等級并存檔。

  當用戶在英庫的輸入欄中輸入一個單詞或語句時,無論是中文還是英文,該網站都可以從數據庫中提取數據對其進行翻譯。英庫還可以顯示一些使用相似單詞的例句,很多情況下還會提供該例句的來源鏈接。

  英庫是今年“華爾街日報亞洲創新獎”(Asian Innovation Awards)終優勝者。

  更多創新

  盡管谷歌翻譯(Google Translate)等翻譯工具也使用了一些類似的方法,但英庫的研究人員還通過其他一些技術拓展了語言練習工具的范圍。

  但與谷歌相比,英庫的觸角仍然很有限。谷歌號稱是全球大的免費翻譯服務,提供57個語種的翻譯。谷歌還將翻譯技術整合到了多款服務中,包括手機、搜索引擎以及Chrome瀏覽器。

  微軟也為用戶提供了必應翻譯器,可以對文本和網站進行翻譯,覆蓋32個語種。

  微軟的研究人員還計劃推出其他語言版本的英庫,包括日語和英語。微軟亞洲研究院技術戰略總監埃里克?常(Eric Chang)表示,幫助英語用戶學習漢語也將成為他們的目標之一,但該公司的研究目前主要還是著眼于漢譯英。

  英庫上的多數英語例句都為用戶提供了語音版本,這些語音是利用英語的人朗讀的語音文件生成的。他們還試圖模仿真人的聲調,盡管抑揚頓挫的變化無法達到真人發聲的水平。

  谷歌翻譯也為用戶提供部分語種的語音版本,包括中文。