LDA主題模型簡(jiǎn)介

概述：LDA主題模型簡(jiǎn)介，LDA主題模型簡(jiǎn)介

LDA主題模型涉及到貝葉斯理論、Dirichlet分布、多項(xiàng)分布、圖模型、變分推斷、EM算法、Gibbs抽樣等知識(shí)，不是很好懂，LDA那篇30頁(yè)的文章我看了四、五遍才基本弄明白是咋回事。那篇文章其實(shí)有點(diǎn)老了，但是很經(jīng)典，從它衍生出來(lái)的文章現(xiàn)在已經(jīng)有n多n多了。主題模型其實(shí)也不只是LDA了，LDA之前也有主題模型，它是之前的一個(gè)突破，它之后也有很多對(duì)它進(jìn)行改進(jìn)的主題模型。需要注意的是，LDA也是有名的LinearDiscriminant Analysis（線性判別分析）的縮寫。
    LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)，可以用來(lái)識(shí)別大規(guī)模文檔集（documentcollection）或語(yǔ)料庫(kù)（corpus）中潛藏的主題信息。它采用了詞袋（bag ofwords）的方法，這種方法將每一篇文檔視為一個(gè)詞頻向量，從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒(méi)有考慮詞與詞之間的順序，這簡(jiǎn)化了問(wèn)題的復(fù)雜性，同時(shí)也為模型的改進(jìn)提供了契機(jī)http://www.p9k.com。仿真模型每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布，而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。由于Dirichlet分布隨機(jī)向量各分量間的弱相關(guān)性（之所以還有點(diǎn)“相關(guān)”，是因?yàn)楦鞣至恐捅仨殲?），使得我們假想的潛在主題之間也幾乎是不相關(guān)的，這與很多實(shí)際問(wèn)題并不相符，從而造成了LDA的又一個(gè)遺留問(wèn)題http://www.tuiguangwang.com。
    這個(gè)圖模型表示法也稱作“盤子表示法”（platenotation）。圖中的陰影圓圈表示可觀測(cè)變量（observed variable），非陰影圓圈表示潛在變量（latentvariable），箭頭表示兩變量間的條件依賴性（conditionaldependency），方框表示重復(fù)抽樣，重復(fù)次數(shù)在方框的右下角。佛山網(wǎng)站優(yōu)化
     該模型有兩個(gè)參數(shù)需要推斷（infer）：一個(gè)是”文檔-主題“分布，色精另外是個(gè)”主題-單詞“分布。通過(guò)學(xué)習(xí)（learn）這兩個(gè)參數(shù)，我們可以知道文檔作者感興趣的主題，以及每篇文檔所涵蓋的主題比例等。推斷方法主要有LDA模型作者提出的變分-EM算法，還有現(xiàn)在常用的Gibbs抽樣法。
      LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn)。如前所述，LDA模型自從誕生之后有了蓬勃的擴(kuò)展，特別是在社會(huì)網(wǎng)絡(luò)和社會(huì)媒體研究領(lǐng)域最為常見(jiàn)。
教學(xué)模型, 仿真模型, 電力模型, 化工模型,

LDA主題模型簡(jiǎn)介,教學(xué)模型

国产免费999在线视频_97超碰国产精品无码_AV在线最新网址不卡最新_人妻无码第10页

專業(yè):教學(xué)模型,仿真模型,電力模型,化工模型

LDA主題模型簡(jiǎn)介