丁香桃色网_欧美在线综合视频_中午字幕无线码一区2020_,亚洲人成毛片在线播放_91看片在线免费观看_亚洲午夜精品视频

時(shí)間序列預(yù)測(cè)模型有哪些,時(shí)間序列模型的新起點(diǎn)—Informer

抖帥宮 975 2023-10-29

時(shí)間序列預(yù)測(cè)模型有哪些,時(shí)間序列模型的新起點(diǎn)—Informer-第1張-觀點(diǎn)-玄機(jī)派

來(lái)源頭條作者:無(wú)遠(yuǎn)不往“ 時(shí)間序列分析問(wèn)題在日常生活中無(wú)處不在,時(shí)間是連續(xù)的,每一秒鐘都會(huì)產(chǎn)生新的變化。”

01

AAAI2021,新型的時(shí)間序列模型—Informer

最新一篇論文來(lái)自于AAAI2021的會(huì)議,名為《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》為時(shí)間序列預(yù)測(cè)任務(wù)帶來(lái)了新的曙光。時(shí)間序列預(yù)測(cè)模型的必要條件是:超強(qiáng)的長(zhǎng)時(shí)間序列對(duì)齊能力,和超級(jí)處理長(zhǎng)時(shí)間序列的輸入和輸出的操作能力。

02

背景知識(shí)和相關(guān)問(wèn)題

近年來(lái),尤其是2017年Google提出的Transformer模型在處理長(zhǎng)時(shí)間序列問(wèn)題的能力遠(yuǎn)超于傳統(tǒng)的RNN模型,包括GRU,LSTM等模型。Transformer模型的優(yōu)勢(shì)在于信號(hào)傳播路徑長(zhǎng)度短,避免了傳統(tǒng)RNN系列網(wǎng)絡(luò)的復(fù)雜循環(huán)結(jié)構(gòu),但是該模型過(guò)于吃透或者消耗GPU資源和服務(wù)器的存儲(chǔ)資源,需要大量的硬件成本投入到模型的訓(xùn)練當(dāng)中,所以對(duì)現(xiàn)實(shí)世界中的長(zhǎng)時(shí)間序列預(yù)測(cè)任務(wù)的應(yīng)用不是特別的切合實(shí)際。Transformer成為將其應(yīng)用于LSTF問(wèn)題的瓶頸,本文的研究目標(biāo)是:can Transformer models be improved to be computation, memory, and architecture efficient, as well as maintain higher prediction capacity?

03

當(dāng)前的挑戰(zhàn)和解決方法

論文首先在abstract部分介紹,長(zhǎng)時(shí)間序列任務(wù)是一項(xiàng)非常重要,而且隨著時(shí)間的增長(zhǎng)難度系數(shù)越來(lái)越大,即預(yù)測(cè)精準(zhǔn)度逐漸降低。有效的預(yù)測(cè),能給目前的研究工作帶來(lái)巨大的突破。即針對(duì)目前非常熱門(mén)的transformer模型,我們所面臨的挑戰(zhàn)和約束可總結(jié)為以下三點(diǎn):

The quadratic computation of self-attention. The atom operation of self-attention mechanism, namely canonical dot-product, causes the time complexity and memory usage per layer to be O(L2).The memory bottleneck in stacking layers for long inputs. The stack of J encoder/decoder layer makes total memory usage to be O(J · L2), which limits the model scalability on receiving long sequence inputs.The speed plunge in predicting long outputs. The dynamic decoding of vanilla Transformer makes the step-by-step inference as slow as RNN-based model.

目前的最新研究工作,主要集中在解決第一個(gè)問(wèn)題上,即self-attention的計(jì)算復(fù)雜度上和內(nèi)存的使用上。針對(duì)以上的問(wèn)題,文章提出了一個(gè)新型的預(yù)測(cè)模型。該模型的主要特點(diǎn)是集中的解決上述的三個(gè)問(wèn)題,模型的主要貢獻(xiàn)如下:

We propose Informer to successfully enhance the prediction capacity in the LSTF problem, which validates the Transformer-like model’s potential value to capture individual long-range dependency between long sequence time-series outputs and inputs.We propose ProbSparse Self-attention mechanism to efficiently replace the canonical self-attention and it achieves the O(LlogL) time complexity andO(L log L) memory usage.We propose Self-attention Distilling operation privileges dominating attention scores in J-stacking layers and sharply reduce the total space complexity to be O((2 ? ε)L log L).We propose Generative Style Decoder to acquire long sequence output with only one forward step needed, simultaneously avoiding cumulative error spreading during the inference phase.本文提出的模型框架如下圖所示,

圖1 Informer模型的整體圖。左側(cè)是編碼器,它接收大量的長(zhǎng)序列輸入(綠色序列)。我們已經(jīng)用提議的ProbSparse self-attention注代替了規(guī)范的self-attention。藍(lán)色梯形是一種self-attention的蒸餾操作,可提取主要注意力,從而大幅減少網(wǎng)絡(luò)規(guī)模。層堆疊副本提高了魯棒性。在右側(cè),解碼器接收長(zhǎng)序列輸入,將目標(biāo)元素填充為零,測(cè)量特征圖的加權(quán)注意力成分,并立即以生成樣式預(yù)測(cè)輸出元素(橙色序列)。

04

解決方法和模型架構(gòu)

目前比較熱門(mén)的計(jì)算self-attention值的方法是根據(jù)輸入的三元組(query,key,value),計(jì)算某個(gè)query加權(quán)后的值,即第i個(gè)query的加權(quán)值,我們可用以下計(jì)算公式獲取:

這里self-attention需要O(LQLK)的內(nèi)存以及二次點(diǎn)積的計(jì)算為代價(jià),這也是目前傳統(tǒng)transformer存在的缺點(diǎn)。其次,本文對(duì)該方法進(jìn)行了評(píng)估,稀疏性self-attention得分的情況呈現(xiàn)長(zhǎng)尾分布,即少數(shù)點(diǎn)積對(duì)注意有貢獻(xiàn),其他的點(diǎn)積貢獻(xiàn)極小,可以忽略不計(jì)。因此如何區(qū)分稀疏性至關(guān)重要,針對(duì)第i個(gè)query的稀疏性評(píng)估方法我們參考KL散度,即可由下述公式計(jì)算得到:

其中,第一項(xiàng)是所有鍵上qi的對(duì)數(shù)總和(LSE),第二項(xiàng)是它們上的算術(shù)平均值。如果第i個(gè)query獲得較大的M(qi, K),則其注意概率p更加“多樣化”,并且很有可能在長(zhǎng)尾self-attention分布自檢的標(biāo)頭字段中包含主要的點(diǎn)積對(duì)。但是上述方法還是存在計(jì)算量過(guò)大和LSE操作存在潛在的數(shù)值穩(wěn)定性問(wèn)題。因此,該篇文章提出了一種對(duì)查詢稀疏性度量的近似方法,提出了最大均值測(cè)量:

其中

是和q相同size的稀疏矩陣,它僅包含稀疏評(píng)估下

下Top-u的queries,由采樣factor

所控制,我們令

, 這么做self-attention對(duì)于每個(gè)query-key lookup就只需要計(jì)算

的內(nèi)積,內(nèi)存的使用包含

,但是我們計(jì)算

的時(shí)候需要計(jì)算沒(méi)對(duì)的dot-product,即,

,同時(shí)LSE還會(huì)帶來(lái)潛在的數(shù)值問(wèn)題,受此影響,本文提出了query sparsity 評(píng)估的近似。模型的框架圖如下圖所示:

圖2 Informer編碼器的體系結(jié)構(gòu)。(1)每個(gè)水平堆棧代表單個(gè)編碼器副本;(2)上層堆棧是主堆棧,它接收整個(gè)輸入序列,而第二層堆棧則占輸入的一半;(3)紅色層是self-attention mechanism 點(diǎn)積矩陣,通過(guò)在每層上進(jìn)行self-attention蒸餾而使其級(jí)聯(lián)減少;(4)將2堆棧的功能圖連接為編碼器的輸出。

4.1 模型的輸入

圖3 Informer的輸入表示。輸入的嵌入包括三個(gè)獨(dú)立的部分:標(biāo)量投影,本地時(shí)間戳(Position)和全局時(shí)間戳嵌入(Minutes, Hours, Week, Month, Holiday etc.)。

4.2 模型的Encoder

編碼器設(shè)計(jì),用于提取長(zhǎng)時(shí)間序列輸入的魯棒的遠(yuǎn)程依賴關(guān)系。Self-attention Distilling,由于 ProbSparse self-attention mechanism 的自然結(jié)果,編碼器的特征圖具有值V的冗余組合。我們使用蒸餾操作為具有優(yōu)勢(shì)的特性賦予優(yōu)等品特權(quán),并在下一層制作有重點(diǎn)的自我注意功能圖。看到圖 2 中Attention塊的N-heads權(quán)重矩陣(重疊的紅色正方形),它會(huì)急劇地修剪輸入的時(shí)間維度,our “distilling” procedure forwards from j-th layer into (j + 1)-th layer as

where, [·]AB contains the Multi-head ProbSparse self- attention and the essential operations in attention block, and Conv1d(·) performs an 1-D convolutional filters (ker- nel width=3) on time dimension with the ELU(·) activa- tion function. We add a max-pooling layer with stride 2 and down-sample Xt into its half slice after stacking a layer, which reduces the whole memory usage to be O((2 ? ε)L log L), where ε is a small number. To enhance the robustness of the distilling operation, we build halving replicas of the main stack and progressively decrease the number of self-attention distilling layers by dropping one layer at a time, like a pyramid in Fig. 2, such that their output dimension is aligned.

4.3 模型的Decoder

我們?cè)趫D1 中使用標(biāo)準(zhǔn)的解碼器結(jié)構(gòu),它由2個(gè)相同的multi- head attention層的堆棧組成。但是,在長(zhǎng)時(shí)間預(yù)測(cè)中,采用了生成推理來(lái)緩解速度下降。我們向解碼器提供以下向量:

where Xtoken ∈ RLtoken×dmodel is the start token, Xt0 ∈RLy×dmodel is a placeholder for the target sequence (set scalar as 0). Masked multi-head attention is applied in theProbSparse self-attention computing by setting masked dot- products to ?∞.

4.4 Generative Inference

Start token is an efficient tech- nique in NLP’s “dynamic decoding” , and we extend it into a generative way. Instead of choos- ing a specific flag as the token, we sample a Ltoken long sequence in the input sequence, which is an earlier slice before the output sequence. Take predicting 168 points as an example (7-day temperature prediction) in Fig.(1(b)), we will take the known 5 days before the target sequence as “start- token”, and feed the generative-style inference decoder withXfeed de = {X5d , X0 }. The X0 contains target sequence’s time stamp, i.e. the context at the target week. Note that our proposed decoder predicts all the outputs by one forward procedure and is free from the time consuming “dynamic decoding” transaction in the trivial encoder-decoder archi- tecture. A detailed performance comparison is given in the computation efficiency section.

本期學(xué)術(shù)論文解讀結(jié)束,謝謝大家!!!下期繼續(xù)分享學(xué)術(shù)論文和相關(guān)智能算法和法律知識(shí)!!!

上一篇:愚人節(jié)怎么捉弄喜歡的人,一分鐘英語(yǔ)之愚人節(jié)“捉弄人”英語(yǔ)怎么說(shuō)
下一篇:猋怎么讀,“羴惢畾掱毳”35個(gè)“三胞胎”漢字
相關(guān)文章

 發(fā)表評(píng)論

暫時(shí)沒(méi)有評(píng)論,來(lái)?yè)屔嘲l(fā)吧~

返回頂部小火箭
主站蜘蛛池模板: 欧美一级做a爰片久久高潮 亚洲一级一级 | 国产精品三级在线观看 | 日韩一区二区在线免费观看 | 久久久亚洲精品视频 | 久久精品国产一区二区 | 亚洲三级不卡 | 成人精品久久久 | 精品久久中文字幕 | 亚洲精品乱码久久久久久 | 久久精品国产免费 | 日韩精品久久久久 | 国产91在线视频 | 久久草av | 精品视频在线一区 | 免费一级片 | 亚洲高清在线 | 国产精品美女久久久久高潮 | 嫩草影院懂你的影院 | 伊人久久亚洲 | 久久久久久久久国产 | 美日韩精品 | 麻豆网在线观看 | 久久综合中文 | 亚洲成人av一区二区 | 日韩欧美高清一区二区 | 久久av资源网| 欧美日韩精品一区 | 骨科h巨肉各种play | 欧美日本韩国一区二区三区 | 91成人精品 | 九九视频一区 | 亚洲精品国产第一综合99久久 | 在线视频一区二区 | 久久久久久伦理 | 91av电影网| 精品无人乱码一区二区三区 | 国产成人小视频 | 久草成人网| 日韩成人综合网 | 日韩电影av | 国产精品久久久久久久久久久久久久久 |