yth2206游艇会智能沈春華教授在2018 VALSE大會作關於視覺問答的報告-yth2206游艇会智能科技（上海）有限公司

yth2206游艇会智能沈春華教授在2018 VALSE大會作關於視覺問答的報告

2018-05-07

來源：

2018 全國“視覺與(yu) 學習(xi) 青年學者研討會(hui) ”（VALSE 2018）4月20日於(yu) 大連拉開帷幕。該研討會(hui) 的主要目的是為(wei) 計算機視覺、圖像處理、模式識別與(yu) 機器學習(xi) 研究領域內(nei) 的中國青年學者提供一個(ge) 深層次學術交流的舞台，促進國內(nei) 青年學者的思想交流和學術合作，提升中國學者在AI領域做出重量級的學術貢獻，及其在國際學術舞台上的影響力。

會(hui) 議期間，來自國內(nei) 各大高校計算機視覺領域權威學者、國內(nei) 人工智能領域的科技公司專(zhuan) 家代表和互聯網知名企業(ye) 阿裏巴巴、百度、滴滴等齊聚現場，展示AI業(ye) 內(nei) 前沿技術、深度學習(xi) 應用成果，並圍繞此展開深入探討。

yth2206游艇会智能沈春華教授受邀作為(wei) 大會(hui) 報告人，在視覺與(yu) 語言專(zhuan) 題討論會(hui) 上（VALSE Workshop on Vision and Language）作了一場關(guan) 於(yu) 視覺問答（Visual Question Answering，以下簡稱為(wei) VQA）的報告。視覺問答/對話是一個(ge) 融合計算機視覺和自然語言處理的終極任務，相比較圖片文本描述任務(ImageCaptioning)，VQA更能反映出對於(yu) 圖像的深層理解能力。報告主要包含以下內(nei) 容。

yth2206游艇会智能沈春華教授發表主題演講

融合知識庫的VQA模型框架以及基於(yu) 常識的VQA數據集（FVQA）

VQA任務通常的做法是使用卷積神經網絡（CNN）得到的特征或預測出的屬性聯合針對圖片的問題一起作為(wei) 遞歸網絡（RNN,LSTM,GRU等）的輸入，然後生成答案。但是當前存在的VQA任務的模型框架由於(yu) 隻考慮了圖片的視覺信息，並不能很好地回答更深層的問題，要回答這些深層問題就需要一些額外的知識作為(wei) 支持。

沈教授團隊提出一個(ge) 融合了知識庫的模型框架，能夠結合圖片所包含的信息和額外的知識庫[1,2,3]。另外，當前的VQA的任務沒有給出問題答案的原因，使得答案不能追溯圖片的相關(guan) 特征以及相關(guan) 知識。沈教授團隊提出了一個(ge) VQA-Machine的框架[4]，融合了多種計算機視覺任務的結果並且能額外輸出給出答案的理由。考慮到當前的VQA數據集的圖片樣本所提供問題和答案都過於(yu) 淺顯，沈教授團隊提出的一個(ge) 基於(yu) 常識事實的新的VQA數據集（FVQA）[5]，對於(yu) 每張圖還會(hui) 額外提供與(yu) 圖片問題相關(guan) 的事實基礎。

類人對話生成

考慮到目前的VQA任務的輸出比較機器化，簡短，報告裏還介紹了其團隊提出的一種使用對抗學習(xi) （GAN）以及強化學習(xi) 輔助生成更加自然的類人的語言的方法[6]。該方法使用了一種融合圖片、問題和曆史問答數據的聯合注意力的編碼器（Co-attention encoder）作為(wei) 一個(ge) 生成器（generator）和一個(ge) 使用曆史生成器記憶的判別器（discriminator）來區分機器生成的對話和類人的對話。

參考文獻：

[1] Image Captioning and Visual QuestionAnswering Based on Attributes and External Knowledge. Wu & Wang et al.TPAMI 2017

[2] Ask Me Anything: Free-Form VisualQuestion Answering Based on Knowledge from External Sources. Wu & Wang etal. CVPR2016

[3] What Value Do Explicit High-LevelConcepts Have in Vision to Language Problems. Wu et al. CVPR 2016

[4] The VQA-machine Learning How to UseExisting Vision Algorithms to Answer New Questions. Wang & Wu et al. CVPR2017

[5] FVQA: Fact-Based Visual QuestionAnswering. Wang & Wu et al. TPAMI 2018

[6] Are You Talking to Me? Reasoned VisualDialog Generation Through Adversarial Learning. Wu & Wang et al. CVPR 2018

yth2206游艇会智能始終密切關(guan) 注著業(ye) 內(nei) 前沿動態，同時十分重視對青年學者這一新生力量的培養(yang) ，作為(wei) 本次大會(hui) 的鉑金讚助商之一，由CEO虞正華博士帶隊，向參會(hui) 的各位青年學者及業(ye) 內(nei) 公司代表介紹了yth2206游艇会智能的團隊情況、核心優(you) 勢及最新研究成果。在展示區，我們(men) 著重展示了yth2206游艇会智能的核心技術優(you) 勢與(yu) 最新產(chan) 品基於(yu) 嵌入式深度學習(xi) 的前視ADAS一體(ti) 機產(chan) 品，為(wei) 期三天的展示中，駐足瀏覽的參會(hui) 人員絡繹不絕。

我們(men) 非常歡迎優(you) 秀學子的加入，在濃厚的學術氛圍團隊中加快實踐技能的提升，一起實現汽車產(chan) 業(ye) 人工智能化，開啟汽車的人工智能大腦。

案例搜索

yth2206游艇会智能沈春華教授在2018 VALSE大會作關於視覺問答的報告