国产欧美一区二区三区,【乱子伦】国产精品,亚洲精品国产精品国自产99.,香蕉久久国产AV一区二区,国产麻豆剧传媒精品国产AV,国产一区二区

<dfn id="tsult"></dfn>

<sup id="tsult"></sup>

POS機(jī)代理咨詢：18926793742

pos機(jī)模型模板,谷歌Quoc Le這篇NLP預(yù)訓(xùn)練模型論文值得一看

新聞資訊 | 2023-04-15 09:57 | 投稿人：pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)模型模板,谷歌Quoc Le這篇NLP預(yù)訓(xùn)練模型論文值得一看的知識，也有很多人為大家解答關(guān)于pos機(jī)模型模板的問題，今天pos機(jī)之家(www.mxllmx.com)為大家整理了關(guān)于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、pos機(jī)模型模板

pos機(jī)模型模板

在 BERT 論文出現(xiàn)的幾周前，斯坦福大學(xué)和谷歌大腦合作的一篇同樣關(guān)于 NLP 預(yù)訓(xùn)練模型的論文發(fā)布。該研究提出一種新型自訓(xùn)練算法 Cross-View Training (CVT)，結(jié)合預(yù)訓(xùn)練詞向量和自訓(xùn)練算法，使用標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)的混合，從而改善 Bi-LSTM 句子編碼器的表征，進(jìn)而改善整個模型。此外，CVT 與多任務(wù)學(xué)習(xí)結(jié)合起來后效果尤為顯著。

在大量標(biāo)注數(shù)據(jù)上訓(xùn)練的深度學(xué)習(xí)模型效果最好。但是，數(shù)據(jù)標(biāo)注成本很高，這刺激了人們對有效半監(jiān)督學(xué)習(xí)技術(shù)的需求（半監(jiān)督學(xué)習(xí)可以利用無標(biāo)注樣本）。在神經(jīng)自然語言處理任務(wù)中廣泛使用且成功的一種半監(jiān)督學(xué)習(xí)策略是預(yù)訓(xùn)練詞向量 (Mikolov et al., 2013)。近期的研究訓(xùn)練 Bi-LSTM 句子編碼器去做語言建模，然后將其語境敏感（context-sensitive）表征納入監(jiān)督模型中。這種預(yù)訓(xùn)練方法先在大型無標(biāo)注數(shù)據(jù)語料庫上進(jìn)行無監(jiān)督表征學(xué)習(xí)，然后再進(jìn)行監(jiān)督訓(xùn)練。

預(yù)訓(xùn)練的一個重要缺陷在于表征學(xué)習(xí)階段無法利用標(biāo)注數(shù)據(jù)——模型嘗試學(xué)習(xí)通用表征而不是針對特定任務(wù)的表征。較老的半監(jiān)督學(xué)習(xí)算法（如自訓(xùn)練算法）沒有這個問題，因?yàn)樗鼈冊跇?biāo)注和無標(biāo)注數(shù)據(jù)上連續(xù)學(xué)習(xí)一項(xiàng)任務(wù)。自訓(xùn)練曾對 NLP 非常有效，但該方法較少用于神經(jīng)模型。而斯坦福大學(xué)和谷歌大腦合作的這篇論文展示了一種對神經(jīng)序列模型也很有效的新型自訓(xùn)練算法——Cross-View Training (CVT)。

在自訓(xùn)練中，模型在標(biāo)注數(shù)據(jù)上正常學(xué)習(xí)，而在無標(biāo)注數(shù)據(jù)上則兼任教師和學(xué)生：教師對樣本作出預(yù)測，學(xué)生基于預(yù)測進(jìn)行訓(xùn)練。盡管該過程對一些任務(wù)有價值，但它略顯累贅：模型已經(jīng)在訓(xùn)練過程中生成預(yù)測了。近期的計(jì)算機(jī)視覺研究解決了這個問題，方法是向?qū)W生網(wǎng)絡(luò)的輸入添加噪聲，訓(xùn)練一個對輸入擾動足夠魯棒的模型。但是，使用噪聲對離散輸入（如文本）比較困難。

該研究從多視角學(xué)習(xí)（multiview learning）中獲得靈感，訓(xùn)練模型對同一輸入的不同視角生成一致的預(yù)測結(jié)果。CVT 沒有將整個模型作為學(xué)生模型，而是向模型添加輔助預(yù)測模塊——將向量表征轉(zhuǎn)換成預(yù)測的神經(jīng)網(wǎng)絡(luò)，將它們也作為學(xué)生來訓(xùn)練。每個學(xué)生預(yù)測模塊的輸入是模型中間表征的子集，對應(yīng)于受限視角的輸入樣本。例如，用于序列標(biāo)注的一個輔助預(yù)測模塊僅關(guān)聯(lián)到模型第一個 Bi-LSTM 層的「前向」（forward）LSTM，因此它在進(jìn)行預(yù)測時看不到當(dāng)前序列右側(cè)的任何 token。

CVT 的作用在于改善模型的表征學(xué)習(xí)。輔助預(yù)測模塊可以從整個模型的預(yù)測中學(xué)習(xí)，因?yàn)檎麄€模型具備更好、視角不受限的輸入。盡管輔助模塊的輸入對應(yīng)受限視角的輸入樣本，但它們?nèi)匀荒軌驅(qū)W習(xí)作出正確的預(yù)測，因此能夠改進(jìn)表征的質(zhì)量。這反過來改善了整個模型，因?yàn)樗鼈兪褂玫氖峭瑯拥谋碚?。簡而言之，該方法將在無標(biāo)注數(shù)據(jù)上進(jìn)行表征學(xué)習(xí)與傳統(tǒng)的自訓(xùn)練方法結(jié)合了起來。

CVT 可用于多種任務(wù)和神經(jīng)架構(gòu)，但是本研究主要聚焦于序列建模任務(wù)，其預(yù)測模塊與共享 Bi-LSTM 編碼器關(guān)聯(lián)。研究者提出對于序列標(biāo)注器、基于圖的依存句法分析器和序列到序列模型都很有效的輔助預(yù)測模塊，并在英語依存句法分析、組合范疇語法（CCG）supertagging、命名實(shí)體識別、詞性標(biāo)注、文本語塊識別（text chunking）和英語-越南語機(jī)器翻譯任務(wù)上對該方法進(jìn)行了評估。CVT 在所有這些任務(wù)上都改進(jìn)了之前發(fā)布的結(jié)果。此外，CVT 還可以輕松高效地與多任務(wù)學(xué)習(xí)結(jié)合使用：只需在共享 Bi-LSTM 編碼器上添加適合不同任務(wù)的額外預(yù)測模塊。訓(xùn)練統(tǒng)一模型來聯(lián)合執(zhí)行所有任務(wù)（除了機(jī)器翻譯）可以改善結(jié)果（優(yōu)于多任務(wù) ELMo 模型），同時降低總訓(xùn)練時間。

論文：Semi-Supervised Sequence Modeling with Cross-View Training

論文鏈接：https://arxiv.org/pdf/1809.08370.pdf

代碼地址：https://github.com/tensorflow/models/tree/master/research/cvt_text

摘要：無監(jiān)督表征學(xué)習(xí)算法（如 word2vec 和 ELMo）可以提升很多監(jiān)督式 NLP 模型的準(zhǔn)確率，主要原因在于它們可以利用大量無標(biāo)注文本。而監(jiān)督模型在主要的訓(xùn)練階段只能從任務(wù)特定的標(biāo)注數(shù)據(jù)中學(xué)習(xí)。因此，我們提出一種半監(jiān)督學(xué)習(xí)算法 Cross-View Training (CVT)，使用標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)的混合改善 Bi-LSTM 句子編碼器的表征。在標(biāo)注數(shù)據(jù)上使用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)；在無標(biāo)注數(shù)據(jù)上，CVT 教只能看到有限輸入（如句子的一個部分）的輔助預(yù)測模塊將預(yù)測結(jié)果與能看到完整輸入的整個模型的預(yù)測結(jié)果進(jìn)行匹配。由于輔助模塊和完整模型共享中間表征，因此這會反過來改善完整模型。此外，我們還展示了 CVT 與多任務(wù)學(xué)習(xí)結(jié)合起來后效果尤為顯著。我們在五個序列標(biāo)注任務(wù)、機(jī)器翻譯和依存句法分析任務(wù)上對 CVT 進(jìn)行了評估，均達(dá)到了當(dāng)前最優(yōu)結(jié)果。

2 Cross-View Training（CVT）

2.1 方法

圖 1：CVT 方法概覽。

2.2 將 CVT 與多任務(wù)學(xué)習(xí)結(jié)合起來

在共享 Bi-LSTM 編碼器上添加適用于其他任務(wù)的額外預(yù)測模塊即可輕松結(jié)合 CVT 與多任務(wù)學(xué)習(xí)。在監(jiān)督學(xué)習(xí)階段，我們隨機(jī)選擇任務(wù)，然后使用小批量標(biāo)注數(shù)據(jù)更新 Lsup。在無監(jiān)督學(xué)習(xí)階段，我們一次性在所有任務(wù)上聯(lián)合優(yōu)化 LCVT，首先讓所有主要預(yù)測模塊運(yùn)行推斷，然后讓所有輔助預(yù)測模塊從預(yù)測中學(xué)習(xí)。模型在小批量標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)上進(jìn)行交替訓(xùn)練。

多個任務(wù)的標(biāo)注數(shù)據(jù)對多任務(wù)系統(tǒng)的學(xué)習(xí)很有用，但是大部分?jǐn)?shù)據(jù)集只為一個任務(wù)而標(biāo)注。因此多任務(wù) CVT 的一個好處就是模型基于無標(biāo)注數(shù)據(jù)創(chuàng)建了適用所有任務(wù)的（artificial）標(biāo)注數(shù)據(jù)。這顯著改善了模型的數(shù)據(jù)效率、縮短了訓(xùn)練時間。由于運(yùn)行預(yù)測模塊計(jì)算成本較低，因此計(jì)算用于多個任務(wù)的 LCVT 并不比單任務(wù)模型慢多少。但是，我們發(fā)現(xiàn)適用所有任務(wù)的標(biāo)注數(shù)據(jù)可以大幅加速模型收斂速度。例如，在六個任務(wù)上訓(xùn)練的 CVT 模型收斂時間大約是單個任務(wù)上模型的平均收斂時間的 3 倍，總訓(xùn)練時間降低了 50%。

圖 2：序列標(biāo)注模型中的輔助預(yù)測模塊。每個模塊都只看到受限視角的輸入。例如，「forward」預(yù)測模塊在預(yù)測當(dāng)前 token 的標(biāo)簽時看不到它右側(cè)的語境。為簡潔起見，這里僅展示了一個層 Bi-LSTM 編碼器，以及該模型一個時間步的預(yù)測。

4 實(shí)驗(yàn)

表 1：在測試集上的結(jié)果，所有分?jǐn)?shù)均為 5 次運(yùn)行的平均值。NER、FGN 和機(jī)器翻譯任務(wù)的分?jǐn)?shù)標(biāo)準(zhǔn)差大約為 0.1，POS 的分?jǐn)?shù)標(biāo)準(zhǔn)差是 0.02，其他任務(wù)的分?jǐn)?shù)標(biāo)準(zhǔn)差是 0.05。+Large 模型的隱藏單元數(shù)量是其他模型的 4 倍，它的大小與包含 ELMo 的模型差不多。* 表示半監(jiān)督，? 表示多任務(wù)。

表 2：有／沒有適用所有任務(wù)的標(biāo)注數(shù)據(jù)時，多任務(wù) CVT 的開發(fā)集性能。

圖 4：不同方法的開發(fā)集 vs. 訓(xùn)練集準(zhǔn)確率。「small」模型的 LSTM 隱藏狀態(tài)大小是其他模型的 1/4（256 vs. 1024）。

表 3：在序列標(biāo)注任務(wù)上，對輔助預(yù)測模塊進(jìn)行模型簡化測試（ablation study）。

圖 5：左圖：模型在開發(fā)集上的性能 vs. 模型訓(xùn)練集所占比例。右圖：開發(fā)集性能 vs. 模型大小。x 軸表示 LSTM 層中隱藏單元的數(shù)量，網(wǎng)絡(luò)中投影層和其他隱藏層的隱藏單元數(shù)量是它的一半。點(diǎn)表示三次運(yùn)行的平均值。

表 4：單任務(wù)模型在開發(fā)集上的性能對比。CVT-MT frozen 表示我們在五個任務(wù)上預(yù)訓(xùn)練了 CVT + 多任務(wù)模型，然后在第六個任務(wù)上僅訓(xùn)練預(yù)測模塊。ELMo frozen 表示我們基于 ELMo 嵌入訓(xùn)練預(yù)測模塊（不包括 LSTM）。

以上就是關(guān)于pos機(jī)模型模板,谷歌Quoc Le這篇NLP預(yù)訓(xùn)練模型論文值得一看的知識，后面我們會繼續(xù)為大家整理關(guān)于pos機(jī)模型模板的知識，希望能夠幫助到大家！

轉(zhuǎn)發(fā)請帶上網(wǎng)址：http://www.mxllmx.com/news/18616.html

上一篇：商戶pos機(jī)素材,數(shù)字化工具正在顛覆中小微商戶傳統(tǒng)零售方式下一篇：pos機(jī)當(dāng)天刷卡退款,滬警方破獲特大詐騙金融機(jī)構(gòu)案

徐汇区| 中西区| 牙克石市| 靖安县| 秦安县| 稻城县| 喀喇沁旗| 勃利县| 康乐县| 如皋市| 洞口县| 高阳县| 扶风县| 长垣县| 永修县| 瑞昌市| 张家港市| 二连浩特市| 雷州市| 龙里县| 宜川县| 门源| 时尚| 佛坪县| 乾安县| 玉溪市| 闵行区| 张掖市| 大厂| 嘉祥县| 南城县| 方城县| 隆德县| 庆阳市| 乐清市| 宁德市| 财经| 贵南县| 普格县| 图们市| 龙门县|

<var id="h1c2o"></var>

<object id="h1c2o"></object>

<address id="h1c2o"></address>