做瑜伽、分類物品,特斯拉『擎天柱』人形機器人再進化,Get 新技能!。

整理 | 屠敏

出品 | CSDN《ID:CSDNnews》

相比 X 平臺《前身為 Twitter》 流量下滑的失意,馬斯克旗下的人形機器人 Optimus《擎天柱》風生水起。

可以做瑜伽、自動分類的『擎天柱』人形機器人

就在剛剛過去的周日,Tesla Optimus 官方號在 X 平臺上分享了一段精彩的視頻,展示了人形機器人擎天柱執行各種任務,包括了做瑜伽和自動按顏色對方塊進行分類。

根據官方的描述,擎天柱現在可以自主對物體進行分類。

譬如,在視頻中,這款機器人可以憑借類似人類的速度輕松分類物體的能力,識別物品的不同顏色。

再者,當人類幹預任務增加復雜性時,擎天柱能夠快速適應這種變化並成功完成任務。

然後機器人也能做出需要單腿站立並伸展四肢的瑜伽姿勢,展示其平衡性和靈活性。

根據視頻,擎天柱現在能夠自我校準它的手臂和腿。

它還可以使用視覺和關節位置編碼器在空間中精確定位其肢體。

這一功能使機器人能夠更高效、更準確地完成物理任務。

這種水平的自我校準可能是開創性的,尤其是在需要對細節一絲不茍的環境中。

值得注意的是,視頻顯示 TeslaBot 現在運行與 Tesla 汽車相同的端到端神經網絡上,該網絡可以處理視頻輸入並生成控制輸出,基於此,這種訓練方法可以使機器人能夠以極高的精度執行任務。

毫無疑問,這一視頻的發佈代表了人形機器人取得了又一重大突破,對此,馬斯克也使用了「Progress」《進步》做了評價。

Optimus 機器人背後的技術

截至目前,Tesla Optimus 隻是簡單地分享了這一視頻,並沒有進一步透露其運用到的技術細節,可謂是吊足了機器人愛好者的胃口。

對此,也有很多人猜測,這段視頻是不是用 CGI《計算機生成圖像》合成的,不過,NVIDIA 高級 AI 科學家、斯坦福大學博士 Jim Fan 在 X 上《https://twitter.com/DrJimFan/status/1705982525825503282》分享了他對 Tesla Optimus 展示的視頻進行逆向工程之後,自己對該技術堆棧的分析,最終得出一個結論:

波士頓動力公司的 Atlas 隻有簡單的抓手。

從長遠來看,”擎天柱 “那雙靈巧的五指手在日常工作中將會表現得更加出色。

接下來,我們不妨看看其逆向工程得到的一些發現。

對此,Jim Fan 也強調道,沒有內幕消息,這裡隻有他自己通過對視頻的分析與相關技術的了解。

首先,Tesla Optimus 人形機器人流暢的手部動作幾乎可以肯定是通過人類操作員的模仿學習《”行為克隆”》訓練出來的。

另一種方法是模擬強化學習,但這通常會導致動作抖動和手部姿勢不自然。

基於此,Jim Fan 剖析道,其中至少有四種方法可以收集『人類演示』:

定制遠程操作系統–Jim Fan 認為這是特斯拉團隊最有可能采用的方法。

開源實例:ALOHA是斯坦福人工智能實驗室《https://tonyzhaozh.github.io/aloha/》推出的一款低成本雙臂機械臂和遠程操作系統。

它能實現非常精確、靈巧的動作,例如將 AAA 電池裝入遙控器或操作隱形眼鏡。

動作捕捉《MoCap》:應用好萊塢電影中使用的 MoCap 系統來捕捉手部關節的細微動作。

Tesla Optimus 采用了與人類相仿的五指手,這是一個很好的設計決定,可以實現直接映射,由此與人類操作員之間不存在”具體差距”。

例如,演示者可以戴上 CyberGlove《http://cyberglovesystems.com》,抓住桌子上的方塊《如視頻所示》。

CyberGlove 將實時捕捉運動信號和觸覺反饋,並將其重新定向到 Optimus 上。

戴手套和記號筆會很笨拙。

另一種實現 MoCap 的方法是計算機視覺。

英偉達™《NVIDIA®》公司的 DexPilot 可實現無標記、無需戴手套的數據收集。

人類操作員隻需徒手即可完成任務。

4 個英特爾 RealSense 深度攝像頭和 2 個英偉達™《NVIDIA®》Titan XP GPU《2019 年投入使用》將像素轉化為精確的運動信號,供機器人學習。

VR 頭顯:將訓練室變成 VR 遊戲,讓人類 “扮演 “擎天柱。

使用原生 VR 控制器或 CyberGlove 控制虛擬的 Optimus 雙手。

這具有可擴展的遠程數據收集優勢——世界各地的註釋者無需親臨現場也能做出貢獻。

VR 演示技術出現在 iGibson 家庭機器人模擬器等研究項目中,Jim Fan 在斯坦福大學參與了這項計劃:https://svl.stanford.edu/igibson/。

以上四種技術並不相互排斥。

Optimus 可以根據不同的利弊組合使用它們。

其次,Tesla Optimus 采用了神經網絡結構。

Optimus 是端到端的訓練:視頻輸入,動作輸出。

對此,Jim Fan 表示,『我很確定它是由一個多模態轉換器實現的』,其中包含以下組件:

圖像:高效 ViT 的某種變體,或者隻是一個舊的 ResNet/EfficientNet 主幹網 (https://arxiv.org/abs/1905.11946)。

方塊拾取和放置演示不需要復雜的視覺技術。

圖像主幹的空間特征圖可以很容易地標記化。

視頻:兩種方法。

要麼將視頻扁平化為一系列圖像並獨立生成 token,要麼使用視頻級令牌生成器。

高效處理視頻像素的方法有很多。

你不一定需要 Transformer主幹,例如 SlowFast Network《https://arxiv.org/abs/1812.03982》和 RubiksNet《https://stanfordvl.github.io/rubiksnet-site/,我在 ECCV 2020 上的論文,高效的 CUDA 移位原語》。

語言:尚不清楚 Optimus 是否有語言提示。

如果有,就需要有一種方法將語言表征 “融合 “到感知中。

FiLM 是一個非常輕量級的神經網絡模塊,可以實現這一目的《https://arxiv.org/abs/1709.07871》。

動作標記化:Optimus 需要將連續運動信號轉換為離散標記,以便自回歸 Transformer 工作。

有以下幾種方法:

– 直接對每個手關節控制的連續值進行分類。

[0,0.01) -> token #0,[0.01,0.02) -> token #1,等等。

這種方法簡單明了,但由於序列長度較長,效率可能不高。

– 關節運動彼此高度依賴,這意味著它們占據了一個低維的 “狀態空間”。

將 VQVAE 應用於運動數據,可獲得長度更短的壓縮 Token 集。

將上述部分組合在一起,我們就有了一個 Transformer 控制器,它消耗視頻token《可選擇語言調制》,並一步一步地輸出動作 token。

表格中的下一幀畫面會反饋給 Transformer,這樣它就知道了自己動作的結果。

這樣就具備了演示中展示的自我糾正能力。

Jim Fan 認為該架構與以下結構最為相似:

– 谷歌 RT-1:https://blog.research.google/2022/12/rt-1-robotics-transformer-for-real.html

– NVIDIA VIMA:https://vimalabs.github.io

最後,Jim Fan 表示,『硬件質量給我留下了深刻印象。

動作流暢,美觀大方。

正如我上面提到的,緊跟人類形態是一個偉大的決定,這樣在模仿人類方面就沒有差距了』

人形機器人的未來

其實回看『特斯拉擎天柱』的誕生,它首次是在 2021 年特斯拉首個『人工智能日』《AI Day》上被馬斯克揭曉,該項目旨在創造一種通用仿人機器人,能夠執行人類不願執行的危險、重復或單調任務。

該機器人設計得既友好又安全,必要時人類可以超越或制服它。

起初,外界並沒有對這款『擎天柱』機器人有過太多的關注。

不過,近一年來,隨著 AIGC 應用的大火,越來越多的人加入了人形機器人創業的浪潮,包括加入創業公司「智元機器人《AGIBot》」半年之後便帶來了首款智元具身智能機器人遠征 A1 進而加入戰局。

相較之下,背靠特斯拉,『特斯拉擎天柱』機器人最吸引人的地方之一是它與特斯拉全自動駕駛《FSD》技術的密切關系。

Optimus 機器人和特斯拉的 FSD 依賴於相同的人工智能系統和硬件,實現了無縫集成,並充分利用了特斯拉在神經網絡和自動系統方面的現有專業知識。

隻不過,有些遺憾的是,目前還沒有關於 TeslaBot 何時準備好投入生產或商業使用的信息。

即使如此,很多極客愛好者當看到這個視頻發佈,依然興奮不已。

@PeymanAbedirad :

這真是個好東西。

進步神速。

我有一個挑剔的地方,那就是它的動作有一些缺陷,其實大多數人也會這樣做,比如臀部的運動會牽扯到手臂的運動。

除非它不具備像人類那樣移動上背部的能力,否則沒有必要向後移動臀部。

我建議再增加一個關節,除非它能在沒有關節的情況下完成預定的工作。

從物理學的角度來看,由於缺少某些關節,以及在人類演示無效動作的視頻中接受訓練,它的很多動作在機械上都是無效的。

這並不是什麼大問題,除非無效力學造成的磨損會影響它的壽命。

@oeryontwt:

當機器人隻是隨意地做瑜伽時,每個人都在關注它的分類能力,這是一項極其困難的重量分配和微調整任務。

直立平衡首先就非常困難,而行走對機器人來說也是一個挑戰。

能做到這一點真是令人驚嘆

最後,附上 Tesla Optimus 的完整視頻:

參考:

https://www.ndtv.com/feature/namaste-tesla-shares-video-of-humanoid-robot-doing-yoga-elon-musk-says-this-4420216