<button id="6drvh"></button>

<acronym id="6drvh"><dd id="6drvh"></dd></acronym>

<button id="6drvh"><listing id="6drvh"><i id="6drvh"></i></listing></button><p id="6drvh"><dd id="6drvh"></dd></p>
<p id="6drvh"></p>

<p id="6drvh"><nobr id="6drvh"></nobr></p>
<p id="6drvh"></p>

新聞動態

行業資訊您現在的位置:首頁 > 新聞動態 > 行業資訊

使用平行的屬性網絡模塊化自動駕駛中的控制策略網絡
發表時間:2019-06-11     閱讀次數:     字體:【

目前神經網絡控制策略在機器人和自動駕駛的領域中都被廣泛探索和應用,因為這些使用模仿學習和增強學習等方法所訓練的策略網路相比于傳統的控制方法具有相當多的優勢。

首先,神經網絡可以表示非常復雜的模型;其次,多種駕駛場景和模式可以同時、全面地影響策略網絡的訓練;此外,相比于線上優化的方法,策略網絡的執行往往更快。但是,策略網絡的實際應用收到一系列限制,其中一個非常重要的問題則是訓練和知識遷移的困難性。

以以下的一個駕駛案例為例(見下圖),假設我們對于第一個駛向既定目標地的任務訓練了一個輸入維度為10維的策略網絡。假設我們新增添了一個躲避障礙物的屬性,而這個屬性新增添了5維的信息輸入,那么我們需要新訓練一個15維輸入的神經網絡。而由于我們對于神經網絡的內部運轉的無知性,盡管這兩個任務非常相似,我們也無法復用任何已有知識而只能完全重新訓練新的策略網絡。同理,假設我們新增添一個限速的屬性,而它又帶來了新的5維輸入,我們又不得不重新訓練一個新策略網絡。

圖1. 三個典型的類似的駕駛任務,但是對于他們的策略網絡(非層級結構神經網絡),沒有知識可以被復用,因此每個新任務需要重新訓練一個新的策略網絡

因此我們的工作目標是建立起一套依據任務屬性的策略網絡模塊化系統,從而達到對于不同的駕駛屬性,如車道保持,障礙物躲避和交通規則,每一個屬性模塊分別給出相關指示,而這些指示共同給出一個整體的駕駛指令。如下圖所示車道保持模塊首先吸取車道相關信息,并且給出相應的駕駛建議;障礙躲避模塊吸收障礙物信息,交通規則模塊吸收交通規則相關的信息,它們都給出和相應屬性相關的駕駛要求。最后,整個屬性網絡整合所有屬性模塊的要求,給出最終的駕駛指令,亦即策略網絡的輸出。

圖2. 平行的屬性網絡的各模塊的結構示意圖

我們提出的平行屬性網絡目標即為實現這一功能。這種層級結構的策略網絡用一個獨立的神經網絡來充當此前描述的屬性模塊,該神經網絡的輸入為該屬性相關的信息,而輸出特定的駕駛要求。為了解釋不同屬性網絡的輸出,我們首先把各個屬性分為兩類,一類是基礎的車道保持屬性,另一類是附加的屬性,如避障、遵守交通規則等。對于基礎的車道保持屬性,相應的屬性模塊充當一個純車道保持策略網絡,輸出一個當前時刻的駕駛命令,如下圖紅色向量所示。而對于其他的附加屬性,相應的屬性模塊則輸出一個在駕駛命令空間里的屬性集,這個屬性集被定義為,如果駕駛命令屬于該屬性集,則這一駕駛屬性可以被滿足,對于某兩個屬性,下圖中的藍色和黃色橢圓內的空間表示了這兩個屬性集。最后,平行屬性網絡執行一個投影,將紅色向量指代的最初的指令向量投影到所有屬性集的交集中得到最終的指令,亦即圖中的綠色向量,即求得距離原指令最近的滿足所有屬性的命令。

圖3. 平行屬性網絡的內部運行方式

我們進行了詳盡的仿真與實車實驗驗證了所提出的方法的有效性和優越性。在第一組實驗的訓練中,我們使用了線性屬性集假設,并且使用了增強學習和模仿學習的方法訓練了各個屬性網絡,并且將各個屬性網絡組合起來作為策略網絡去控制無人車執行了很多未經訓練的駕駛任務。我們主要考察了查車道保持、避障、遵守紅綠燈和限速等常見駕駛屬性,下圖展示了若干未經直接訓練,而是直接通過屬性模塊組合而成的策略網絡執行相關任務時的駕駛行為示意圖。我們的實驗證明了:(1)使用模塊化方法,高維的駕駛任務可以被降級成很多低維的屬性,從而更容易訓練;(2)平行屬性網絡可以動態處理不同任務造成的不同維度的網絡輸入;(3)對于一些未被訓練的任務,通過組合以訓練的屬性模塊,我們可以得令人滿意的策略網絡。

圖4. 平行屬性網絡作為策略網絡控制無人車車道保持同時服從紅綠燈

圖5. 平行屬性網絡作為策略網絡控制無人車車道保持同時服從限速

圖6. 平行屬性網絡作為策略網絡控制無人車躲避障礙物同時服從紅綠燈和限速

理論上,各個屬性模塊的訓練可以使用增強學習和模仿學習,并且對于模仿學習,訓練集可以來自于人類標注或者理論計算結果。我們在實驗中比較了增強學習、模仿學習、以及用于生成模仿學習訓練集的專家執行者的表現,如下圖所示。這一實驗說明,增強學習可以得到比模仿學習更好的效果,這也是本方法的突出優勢之一。

圖7. 增強學習、模仿學習training log以及生成模仿學習數據集的專家執行者的表現對比

最后,我們還進行了實車實驗,驗證了我們的方法可以實時地控制無人車執行駕駛任務。實車實驗中我們使用平行屬性網絡作為控制策略在仿真空間中生成一系列參考軌跡,再使用控制器控制無人車沿著軌跡形勢,這一部分工作主要整理發表在[2]文中。實驗表明,使用我們的平行屬性網絡作為路徑規劃單元的控制系統可以控制無人車實時執行變道避障任務,下圖主要定性展示展示無人車在執行變道避障時的行為以及車載監控視角的表現。

圖8. 變道避障實車實驗的現場照片以及車內監控視角示意圖

(具體方法及更詳盡的分析請參考論文)

[1] Zhuo Xu, Haonan Chang, Chen Tang, Changliu Liu, and Masayoshi Tomizuka, “Toward Modularization of Neural Network Autonomous Driving Policy Using Parallel Attribute Networks”in IEEE Intelligent Vehicles Symposium (IV), June. 2019

[2] Chen Tang*, Zhuo Xu*, and M. Tomizuka, “Disturbance Observer based Tracking Controller for Neural Network Driving Policy Transfer”, to appear in IEEE Transactions on Intelligent Transportation Systems in 2019.

轉自:智車科技 來源:ControlPlusAI

 
上一篇:汽車“黑匣子”探秘
下一篇:無人駕駛汽車的核心是什么
91麻豆精品_亚洲片国产一区一级在线观看_色欲密臀av一区二区三区_乱色老熟妇一区二区三区
<button id="6drvh"></button>

<acronym id="6drvh"><dd id="6drvh"></dd></acronym>

<button id="6drvh"><listing id="6drvh"><i id="6drvh"></i></listing></button><p id="6drvh"><dd id="6drvh"></dd></p>
<p id="6drvh"></p>

<p id="6drvh"><nobr id="6drvh"></nobr></p>
<p id="6drvh"></p>