2024年3月21日,華為、東北大學(xué)和南京大學(xué)的研究人員深入探討了機器翻譯質(zhì)量評估(QE)領(lǐng)域,特別關(guān)注了大型語言模型(LLM)在QE應(yīng)用中的重要作用。
為了對QE方法的當(dāng)前狀態(tài)進行徹底且專業(yè)的理解,研究人員詳盡地探索了QE領(lǐng)域內(nèi)幾乎所有具有代表性的方法。盡管此研究未引入新的信息,但論文對從事量化寬松研究的實踐者和對這一領(lǐng)域感興趣的學(xué)者而言,具有極高的實用價值。
研究人員將QE領(lǐng)域發(fā)展過程中的方法劃分為三大類別:依賴手工制作功能的方法、基于深度學(xué)習(xí)的方法,以及利用LLM的方法。他們解釋,在QE研究的初期,方法主要依賴于手工特征來預(yù)測翻譯質(zhì)量,從而催生了諸如QuEst等框架。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,QE方法開始利用神經(jīng)網(wǎng)絡(luò)進行更精細的建模,并進一步細分為基于經(jīng)典深度學(xué)習(xí)方法(如deepQuest)和集成預(yù)訓(xùn)練語言模型(LM)(如COMET)的類別。
研究人員指出,基于LLM的方法具有達到最先進(SOTA)性能水平的潛力。最近,QE研究已聚焦于利用LLM的廣泛知識基礎(chǔ)和高級學(xué)習(xí)能力,以提高QE模型的準(zhǔn)確性和性能,推動QE研究的進步。
在LLM的應(yīng)用方面,研究人員識別了多種方法:利用LLM直接預(yù)測翻譯質(zhì)量分數(shù)或錯誤并評估其嚴(yán)重性;使用LLM作為基礎(chǔ)模型,結(jié)合后期編輯數(shù)據(jù)確定需要編輯的片段;通過LLM創(chuàng)建帶有錯誤注釋和解釋的合成數(shù)據(jù),用于微調(diào)基于LLM的可解釋QE指標(biāo),從而提供全面的錯誤診斷報告和QE分數(shù)(無需人工注釋數(shù)據(jù));利用LLM的概率和不確定性作為質(zhì)量指標(biāo);以及使用LLM在正確的翻譯中引入錯誤并創(chuàng)建噪音句子對,用于訓(xùn)練QE指標(biāo)以區(qū)分準(zhǔn)確和不準(zhǔn)確的翻譯。
盡管研究人員承認,基于LLM的QE方法尚未在性能上超越包含預(yù)訓(xùn)練LM的QE方法,但他們預(yù)測,隨著研究的深入和技術(shù)的發(fā)展,基于LLM的方法有望達到最先進的性能水平。
在QE面臨的挑戰(zhàn)方面,研究人員看到了LLM在解決可解釋性問題和注釋數(shù)據(jù)稀缺性方面的潛力。LLM能夠生成合成注釋數(shù)據(jù),這在低資源語言中尤為重要,有助于確定具體錯誤及其在文本中的位置。他們建議,未來的研究應(yīng)更加關(guān)注利用有限元模型來增強QE的可解釋性。
然而,挑戰(zhàn)仍然存在,包括預(yù)訓(xùn)練LM和LLM的資源密集性,以及缺乏標(biāo)準(zhǔn)化的評估指標(biāo),這阻礙了模型性能的比較和集成。最后,研究人員還提出,未來的研究應(yīng)更加注重詞匯層面的QE。