網(wǎng)上有很多關(guān)于pos機(jī)模型模板,谷歌Quoc Le這篇NLP預(yù)訓(xùn)練模型論文值得一看的知識,也有很多人為大家解答關(guān)于pos機(jī)模型模板的問題,今天pos機(jī)之家(www.mxllmx.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
pos機(jī)模型模板
在 BERT 論文出現(xiàn)的幾周前,斯坦福大學(xué)和谷歌大腦合作的一篇同樣關(guān)于 NLP 預(yù)訓(xùn)練模型的論文發(fā)布。該研究提出一種新型自訓(xùn)練算法 Cross-View Training (CVT),結(jié)合預(yù)訓(xùn)練詞向量和自訓(xùn)練算法,使用標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)的混合,從而改善 Bi-LSTM 句子編碼器的表征,進(jìn)而改善整個模型。此外,CVT 與多任務(wù)學(xué)習(xí)結(jié)合起來后效果尤為顯著。在大量標(biāo)注數(shù)據(jù)上訓(xùn)練的深度學(xué)習(xí)模型效果最好。但是,數(shù)據(jù)標(biāo)注成本很高,這刺激了人們對有效半監(jiān)督學(xué)習(xí)技術(shù)的需求(半監(jiān)督學(xué)習(xí)可以利用無標(biāo)注樣本)。在神經(jīng)自然語言處理任務(wù)中廣泛使用且成功的一種半監(jiān)督學(xué)習(xí)策略是預(yù)訓(xùn)練詞向量 (Mikolov et al., 2013)。近期的研究訓(xùn)練 Bi-LSTM 句子編碼器去做語言建模,然后將其語境敏感(context-sensitive)表征納入監(jiān)督模型中。這種預(yù)訓(xùn)練方法先在大型無標(biāo)注數(shù)據(jù)語料庫上進(jìn)行無監(jiān)督表征學(xué)習(xí),然后再進(jìn)行監(jiān)督訓(xùn)練。
預(yù)訓(xùn)練的一個重要缺陷在于表征學(xué)習(xí)階段無法利用標(biāo)注數(shù)據(jù)——模型嘗試學(xué)習(xí)通用表征而不是針對特定任務(wù)的表征。較老的半監(jiān)督學(xué)習(xí)算法(如自訓(xùn)練算法)沒有這個問題,因?yàn)樗鼈冊跇?biāo)注和無標(biāo)注數(shù)據(jù)上連續(xù)學(xué)習(xí)一項(xiàng)任務(wù)。自訓(xùn)練曾對 NLP 非常有效,但該方法較少用于神經(jīng)模型。而斯坦福大學(xué)和谷歌大腦合作的這篇論文展示了一種對神經(jīng)序列模型也很有效的新型自訓(xùn)練算法——Cross-View Training (CVT)。
在自訓(xùn)練中,模型在標(biāo)注數(shù)據(jù)上正常學(xué)習(xí),而在無標(biāo)注數(shù)據(jù)上則兼任教師和學(xué)生:教師對樣本作出預(yù)測,學(xué)生基于預(yù)測進(jìn)行訓(xùn)練。盡管該過程對一些任務(wù)有價值,但它略顯累贅:模型已經(jīng)在訓(xùn)練過程中生成預(yù)測了。近期的計(jì)算機(jī)視覺研究解決了這個問題,方法是向?qū)W生網(wǎng)絡(luò)的輸入添加噪聲,訓(xùn)練一個對輸入擾動足夠魯棒的模型。但是,使用噪聲對離散輸入(如文本)比較困難。
該研究從多視角學(xué)習(xí)(multiview learning)中獲得靈感,訓(xùn)練模型對同一輸入的不同視角生成一致的預(yù)測結(jié)果。CVT 沒有將整個模型作為學(xué)生模型,而是向模型添加輔助預(yù)測模塊——將向量表征轉(zhuǎn)換成預(yù)測的神經(jīng)網(wǎng)絡(luò),將它們也作為學(xué)生來訓(xùn)練。每個學(xué)生預(yù)測模塊的輸入是模型中間表征的子集,對應(yīng)于受限視角的輸入樣本。例如,用于序列標(biāo)注的一個輔助預(yù)測模塊僅關(guān)聯(lián)到模型第一個 Bi-LSTM 層的「前向」(forward)LSTM,因此它在進(jìn)行預(yù)測時看不到當(dāng)前序列右側(cè)的任何 token。
CVT 的作用在于改善模型的表征學(xué)習(xí)。輔助預(yù)測模塊可以從整個模型的預(yù)測中學(xué)習(xí),因?yàn)檎麄€模型具備更好、視角不受限的輸入。盡管輔助模塊的輸入對應(yīng)受限視角的輸入樣本,但它們?nèi)匀荒軌驅(qū)W習(xí)作出正確的預(yù)測,因此能夠改進(jìn)表征的質(zhì)量。這反過來改善了整個模型,因?yàn)樗鼈兪褂玫氖峭瑯拥谋碚?。簡而言之,該方法將在無標(biāo)注數(shù)據(jù)上進(jìn)行表征學(xué)習(xí)與傳統(tǒng)的自訓(xùn)練方法結(jié)合了起來。
CVT 可用于多種任務(wù)和神經(jīng)架構(gòu),但是本研究主要聚焦于序列建模任務(wù),其預(yù)測模塊與共享 Bi-LSTM 編碼器關(guān)聯(lián)。研究者提出對于序列標(biāo)注器、基于圖的依存句法分析器和序列到序列模型都很有效的輔助預(yù)測模塊,并在英語依存句法分析、組合范疇語法(CCG)supertagging、命名實(shí)體識別、詞性標(biāo)注、文本語塊識別(text chunking)和英語-越南語機(jī)器翻譯任務(wù)上對該方法進(jìn)行了評估。CVT 在所有這些任務(wù)上都改進(jìn)了之前發(fā)布的結(jié)果。此外,CVT 還可以輕松高效地與多任務(wù)學(xué)習(xí)結(jié)合使用:只需在共享 Bi-LSTM 編碼器上添加適合不同任務(wù)的額外預(yù)測模塊。訓(xùn)練統(tǒng)一模型來聯(lián)合執(zhí)行所有任務(wù)(除了機(jī)器翻譯)可以改善結(jié)果(優(yōu)于多任務(wù) ELMo 模型),同時降低總訓(xùn)練時間。
論文:Semi-Supervised Sequence Modeling with Cross-View Training
論文鏈接:https://arxiv.org/pdf/1809.08370.pdf
代碼地址:https://github.com/tensorflow/models/tree/master/research/cvt_text
摘要:無監(jiān)督表征學(xué)習(xí)算法(如 word2vec 和 ELMo)可以提升很多監(jiān)督式 NLP 模型的準(zhǔn)確率,主要原因在于它們可以利用大量無標(biāo)注文本。而監(jiān)督模型在主要的訓(xùn)練階段只能從任務(wù)特定的標(biāo)注數(shù)據(jù)中學(xué)習(xí)。因此,我們提出一種半監(jiān)督學(xué)習(xí)算法 Cross-View Training (CVT),使用標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)的混合改善 Bi-LSTM 句子編碼器的表征。在標(biāo)注數(shù)據(jù)上使用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí);在無標(biāo)注數(shù)據(jù)上,CVT 教只能看到有限輸入(如句子的一個部分)的輔助預(yù)測模塊將預(yù)測結(jié)果與能看到完整輸入的整個模型的預(yù)測結(jié)果進(jìn)行匹配。由于輔助模塊和完整模型共享中間表征,因此這會反過來改善完整模型。此外,我們還展示了 CVT 與多任務(wù)學(xué)習(xí)結(jié)合起來后效果尤為顯著。我們在五個序列標(biāo)注任務(wù)、機(jī)器翻譯和依存句法分析任務(wù)上對 CVT 進(jìn)行了評估,均達(dá)到了當(dāng)前最優(yōu)結(jié)果。
2 Cross-View Training(CVT)
2.1 方法
圖 1:CVT 方法概覽。
2.2 將 CVT 與多任務(wù)學(xué)習(xí)結(jié)合起來
在共享 Bi-LSTM 編碼器上添加適用于其他任務(wù)的額外預(yù)測模塊即可輕松結(jié)合 CVT 與多任務(wù)學(xué)習(xí)。在監(jiān)督學(xué)習(xí)階段,我們隨機(jī)選擇任務(wù),然后使用小批量標(biāo)注數(shù)據(jù)更新 Lsup。在無監(jiān)督學(xué)習(xí)階段,我們一次性在所有任務(wù)上聯(lián)合優(yōu)化 LCVT,首先讓所有主要預(yù)測模塊運(yùn)行推斷,然后讓所有輔助預(yù)測模塊從預(yù)測中學(xué)習(xí)。模型在小批量標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)上進(jìn)行交替訓(xùn)練。
多個任務(wù)的標(biāo)注數(shù)據(jù)對多任務(wù)系統(tǒng)的學(xué)習(xí)很有用,但是大部分?jǐn)?shù)據(jù)集只為一個任務(wù)而標(biāo)注。因此多任務(wù) CVT 的一個好處就是模型基于無標(biāo)注數(shù)據(jù)創(chuàng)建了適用所有任務(wù)的(artificial)標(biāo)注數(shù)據(jù)。這顯著改善了模型的數(shù)據(jù)效率、縮短了訓(xùn)練時間。由于運(yùn)行預(yù)測模塊計(jì)算成本較低,因此計(jì)算用于多個任務(wù)的 LCVT 并不比單任務(wù)模型慢多少。但是,我們發(fā)現(xiàn)適用所有任務(wù)的標(biāo)注數(shù)據(jù)可以大幅加速模型收斂速度。例如,在六個任務(wù)上訓(xùn)練的 CVT 模型收斂時間大約是單個任務(wù)上模型的平均收斂時間的 3 倍,總訓(xùn)練時間降低了 50%。
圖 2:序列標(biāo)注模型中的輔助預(yù)測模塊。每個模塊都只看到受限視角的輸入。例如,「forward」預(yù)測模塊在預(yù)測當(dāng)前 token 的標(biāo)簽時看不到它右側(cè)的語境。為簡潔起見,這里僅展示了一個層 Bi-LSTM 編碼器,以及該模型一個時間步的預(yù)測。
4 實(shí)驗(yàn)
表 1:在測試集上的結(jié)果,所有分?jǐn)?shù)均為 5 次運(yùn)行的平均值。NER、FGN 和機(jī)器翻譯任務(wù)的分?jǐn)?shù)標(biāo)準(zhǔn)差大約為 0.1,POS 的分?jǐn)?shù)標(biāo)準(zhǔn)差是 0.02,其他任務(wù)的分?jǐn)?shù)標(biāo)準(zhǔn)差是 0.05。+Large 模型的隱藏單元數(shù)量是其他模型的 4 倍,它的大小與包含 ELMo 的模型差不多。* 表示半監(jiān)督,? 表示多任務(wù)。
表 2:有/沒有適用所有任務(wù)的標(biāo)注數(shù)據(jù)時,多任務(wù) CVT 的開發(fā)集性能。
圖 4:不同方法的開發(fā)集 vs. 訓(xùn)練集準(zhǔn)確率。「small」模型的 LSTM 隱藏狀態(tài)大小是其他模型的 1/4(256 vs. 1024)。
表 3:在序列標(biāo)注任務(wù)上,對輔助預(yù)測模塊進(jìn)行模型簡化測試(ablation study)。
圖 5:左圖:模型在開發(fā)集上的性能 vs. 模型訓(xùn)練集所占比例。右圖:開發(fā)集性能 vs. 模型大小。x 軸表示 LSTM 層中隱藏單元的數(shù)量,網(wǎng)絡(luò)中投影層和其他隱藏層的隱藏單元數(shù)量是它的一半。點(diǎn)表示三次運(yùn)行的平均值。
表 4:單任務(wù)模型在開發(fā)集上的性能對比。CVT-MT frozen 表示我們在五個任務(wù)上預(yù)訓(xùn)練了 CVT + 多任務(wù)模型,然后在第六個任務(wù)上僅訓(xùn)練預(yù)測模塊。ELMo frozen 表示我們基于 ELMo 嵌入訓(xùn)練預(yù)測模塊(不包括 LSTM)。
以上就是關(guān)于pos機(jī)模型模板,谷歌Quoc Le這篇NLP預(yù)訓(xùn)練模型論文值得一看的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機(jī)模型模板的知識,希望能夠幫助到大家!
