國際最新研究稱,一人工智能模型能翻譯200種不同語言

分享到:
分享到:

國際最新研究稱,一人工智能模型能翻譯200種不同語言

2024年06月08日 15:51 來源:中國新聞網(wǎng)
大字體
小字體
分享到:

  中新網(wǎng)北京6月8日電 (記者 孫自法)國際著名學(xué)術(shù)期刊《自然》最新一篇人工智能(AI)研究論文稱,研究人員開發(fā)出一個Meta人工智能模型的底層技術(shù),該模型能翻譯200種不同語言,增加了能用機器翻譯的語言數(shù)量。

  該論文介紹,神經(jīng)機器翻譯模型利用人工神經(jīng)網(wǎng)絡(luò)翻譯各種語言,這些模型通常需要大量可在線獲取的數(shù)據(jù)加以訓(xùn)練,但并非所有語言數(shù)據(jù)都公開、低成本或是普遍可及,此類語言被稱為“低資源語言”。而增加模型在翻譯語言數(shù)量上的語言輸出可能會影響模型的翻譯質(zhì)量。

  為此,本篇論文作者、“不落下任何語言”(No Language Left Behind,NLLB)團隊開發(fā)出一種跨語言技術(shù),能讓神經(jīng)機器翻譯模型學(xué)習(xí)如何利用翻譯高資源語言的預(yù)存能力來翻譯低資源語言。作為成果,NLLB團隊開發(fā)了一個在線多語言翻譯工具,名為NLLB-200,該工具能容納200種語言,其低資源語言數(shù)量是高資源語言的三倍,翻譯表現(xiàn)比已有系統(tǒng)高了44%。

  由于NLLB團隊在許多低資源語言上只能獲取1000-2000例樣本,為擴大NLLB-200的訓(xùn)練數(shù)據(jù)量,他們用一個語言識別系統(tǒng)發(fā)現(xiàn)了這些特定語言的更多實例。該團隊還從互聯(lián)網(wǎng)存檔中挖掘雙語文本數(shù)據(jù),幫助提升了NLLB-200的翻譯質(zhì)量。

  《自然》同期發(fā)表同行專家“新聞與觀點”文章指出,NLLB團隊研發(fā)的這個工具,可以幫助很少被翻譯的那些語言的使用者,讓他們能使用互聯(lián)網(wǎng)和其他技術(shù)。

  此外,NLLB團隊還強調(diào)教育是一個非常重要的應(yīng)用,因為這個模型可以幫助低資源語言使用者獲取更多圖書和研究文章。不過,該團隊也提醒說,誤譯的情況仍有可能出現(xiàn)。(完)

【編輯:李潤澤】
發(fā)表評論 文明上網(wǎng)理性發(fā)言,請遵守新聞評論服務(wù)協(xié)議
本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
Copyright ©1999-2024 chinanews.com. All Rights Reserved

評論

頂部