為了評估傳感器不同特征通道的貢獻,我們介紹了一種新的多模式融合方法,并使用激光雷達相機攝像頭融合網絡演示了其實用性。具體來說,提出了一種可以輕松添加到融合分割網絡中的通道注意模塊。在該模塊中,我們使用通道注意機制來獲取跨通道局部交互信息,并分配特征通道的權重來表示不同特征通道的貢獻。為了驗證該方法的有效性,我們使用KITTI干擾器基準和A2D2數據集對兩種類型的特征融合進行了實驗。
我們的模型實現了精確監控的邊緣分割,與原始融合方法的值相比,精度提高了5.59%,F2分數提高了2.12%。我們相信,我們為多模式融合引入了一種新的優化思想。我們提出了第一個訓練用于檢測大型猿類的多幀視頻對象檢測框架。它適用于在復雜的叢林環境中挑戰攝像機陷阱鏡頭,并通過在空間和時間域中添加自注意力驅動的特征混合,屏蔽器擴展了傳統的特征金字塔結構。我們證明,盡管存在明顯的部分遮擋,但這種擴展可以檢測到獨特的物種外觀和運動特征。
我們使用泛非計劃中包含180K幀的500個大型類人猿攝像機捕捉視頻來評估框架,我們使用精確的監控攝像頭每幀動物邊界框手動注釋。這些剪輯包含顯著的局部遮擋、挑戰性的照明、動態背景和自然偽裝效果。我們表明,我們的方法性能非常穩定,顯著優于基于幀的檢測器。我們還對完整的ILSVRC 2015 VID數據語料庫進行了詳細的消融研究和驗證,以證明在適當的性能水平下具有更廣泛的適用性。我們得出結論,該干擾屏蔽器框架已準備好協助人類攝像機陷阱檢查工作。我們在本文中發布了代碼、權重和地面實況注釋。
我們的模型實現了精確監控的邊緣分割,與原始融合方法的值相比,精度提高了5.59%,F2分數提高了2.12%。我們相信,我們為多模式融合引入了一種新的優化思想。我們提出了第一個訓練用于檢測大型猿類的多幀視頻對象檢測框架。它適用于在復雜的叢林環境中挑戰攝像機陷阱鏡頭,并通過在空間和時間域中添加自注意力驅動的特征混合,屏蔽器擴展了傳統的特征金字塔結構。我們證明,盡管存在明顯的部分遮擋,但這種擴展可以檢測到獨特的物種外觀和運動特征。
我們使用泛非計劃中包含180K幀的500個大型類人猿攝像機捕捉視頻來評估框架,我們使用精確的監控攝像頭每幀動物邊界框手動注釋。這些剪輯包含顯著的局部遮擋、挑戰性的照明、動態背景和自然偽裝效果。我們表明,我們的方法性能非常穩定,顯著優于基于幀的檢測器。我們還對完整的ILSVRC 2015 VID數據語料庫進行了詳細的消融研究和驗證,以證明在適當的性能水平下具有更廣泛的適用性。我們得出結論,該干擾屏蔽器框架已準備好協助人類攝像機陷阱檢查工作。我們在本文中發布了代碼、權重和地面實況注釋。
上一篇:相機像素標準是如何定制的
下一篇:回聲探測儀對整個系統作用
