視覺富文檔理解預(yù)訓(xùn)練綜述
摘要: 視覺富文檔指語義結(jié)構(gòu)不僅由文本內(nèi)容決定,還與排版格式和表格結(jié)構(gòu)等視覺元素相關(guān)的文檔?,F(xiàn)實(shí)生活中的票據(jù)理解和證件識別等應(yīng)用場景,都需要對視覺富文檔進(jìn)行自動化的閱讀、分析和處理。這一過程即為視覺富文檔理解,屬于自然語言處理和計(jì)算機(jī)視覺的交叉領(lǐng)域。近年來,視覺富文檔理解領(lǐng)域的預(yù)訓(xùn)練技術(shù)在打破下游任務(wù)的訓(xùn)練壁壘和提升模型表現(xiàn)上取得了重大的進(jìn)展。然而,目前對現(xiàn)有的預(yù)訓(xùn)練模型的歸納總結(jié)和深... (共18頁)
開通會員,享受整站包年服務(wù)