智東西8月11日報道,昆侖萬維SkyWork AI技術發布周今日正式啟動。在持續5天的活動中,昆侖萬維將每天發布一款新模型,音頻驅動視頻生成數字人模型SkyReels-A3作為“第一彈”率先亮相。
當下市面上的數字人層出不窮,但因機械感、AI味兒重等問題廣受詬病。SkyReels-A3直擊數字人行業痛點,生成的視頻“真人感”肉眼可見,幾乎看不出來AI痕跡,支持多種精細動作及運鏡方式,而且生成時長“感人”,超60秒保持完全順暢一致。
比如,下面這個長視頻,你能看出完全是我們用SkyReels-A3在幾分鐘之內一次生成的嗎?
在昆侖萬維公布的初步人工測試中,Skyreels-A3對于面部和主體的穩定性、口型同步、動作自然性等方面都取得了最好的效果,堪稱“五邊形戰士”——這些能力滿足時下熱門的數字人直播的業務需求,人人0門檻自創數字人開直播的時代真的來臨了!
在定量評估中,Skyreels-A3在不同的音頻驅動場景的大多數指標上,超越了先進的開源模型omniavatar和閉源模型omnihuman等方法,達到該賽道多項測評的SOTA(行業最佳)的水準。
當下,SkyReels-A3已經面向所有人開放可用,智東西第一時間進行了實測。
在試用體驗后,智東西的真實感受是:這款模型堪稱“魔法”級別,準確和自然度、畫質及動感、時長都讓人眼前一亮。而且,從輸入所需的圖片、文案、音頻到最終生成的視頻,智東西基本都采用昆侖萬維的大模型及Skywork Super Agent來生成,從而體驗到了“從0到1”的創作快感。
不得不說,今天的生成式AI已經是Next Level了。
不止于“對嘴型”表情動作達“真人級”
昆侖萬維的團隊觀察到,當下音頻驅動的人像視頻生成技術已經顯著進步,但在自然的環境互動、長時間高質量生成以及執行精準復雜指令等方面,仍難以勝任。
為此,其最新模型SkyReels-A3針對這些問題進行了優化。
用戶輸入一張照片、一條音頻以及一句提示詞,SkyReels-A3就能輸出如以下視頻中的真人級直播賣貨視頻。視頻中,金發碧眼的女主播在講解手中的防曬霜,防曬霜自然地晃動,背后艷陽高照、泳池水光波動,真實感很強。
實測效果如何?智東西從多語種口型同步、手部動作自然度、表情動作與場景貼合度、動態運鏡控制、長視頻穩定性、多風格多主體等方面,對SkyReels-A3的視頻生成效果進行了實際體驗。
如果我不說,相信大多數人看到下面的視頻后都會驚訝:這些視頻都是AI生成的?沒錯,從文案、角色、聲音到最終視頻,都是AI。
實測1:多語種口型同步。智東西輸入了中文、中文方言粵語、英文3種語言的音頻片段(各30秒),以及三張不同肖像圖,生成了三個數字人視頻,合而為一呈現。可以看到,視頻中的人物的表情穩定,不同語種發音的嘴部運動自然連貫,口型與語音精準匹配。
實測2:手部動作自然度。開篇智東西展示了生成的貓咪賣貨視頻,現在當我把輸入的照片換成AI生成的人物肖像,只見視頻生成也十分聲臉貼合。更重要的是,手指生成正常且動作流暢,沒有出現“六個手指”這樣的恐怖谷效應以及重影現象。
此前7月,多家媒體報道,從Grok4到OpenAI o3等頂尖AI都數不清六根手指,引發人們關注。SkyReels-A3則在本次實測生成的多個視頻中都避開了這個bug。這種能力對廣告主播等業務場景非常重要,因為他們經常需要手部和物品交互來達成商品成交。
實測3:表情動作與場景貼合度。首先是一個演講場景的案例,當我輸入一個演講場景的圖片和對應音頻,SkyReels-A3似乎理解了這一場景的設定,生成視頻中的女孩自信地進行演講,并時不時向左下角看稿子,符合場景設定。
下面這一視頻設定的場景為演唱會MV,可以看到生成視頻中小姐姐專注演唱,狀態“女團”活力十足,作為虛擬偶像立馬出道也不為過。而這一視頻生成僅僅花了1分鐘不到,加上照片和歌曲生成前后也不到10分鐘。
實測4:動態運鏡控制體驗。首先看一個昆侖萬維的官方Demo,鏡頭呈現了下降的動態運作,讓曠野中的男士逐漸逼近,展現出磅礴的大片感。
智東西對案例難度進行了升級,輸入一張帶有兩個人的照片,并輸入了一小段音樂音頻,以及“push in,女孩看向前方唱歌,男孩開心地看向女孩”文字指令,SkyReels-A3為我生成了一段采用了運鏡技巧的視頻。
從視頻效果來看,鏡頭的推進比較平滑,視角變化符合指令。不過,兩個人的嘴型隱約看到都在跟著動,與只要求女孩唱歌的提示指令略有出入。
據悉,昆侖萬維研發團隊目前預設了8種常見的運鏡參數,包含: 固定鏡頭(static)、推鏡 (push in)、拉鏡 (push out)、左搖(pan left)、右搖(pan right)、抬升(crane up)、下降(crane down)和手持鏡頭(swing),用戶可以根據需要選擇相應運鏡,并且每個運鏡的強度可0–100%連續調節。
實測5:長視頻穩定性效果。下面這是一段圍繞“《悉達多》與內卷還是躺平”主題生成的長視頻,時長接近1分鐘,畫面沒有出現崩壞、閃爍或人物變形,動作、表情也比較連貫。
當前市面上的模型主要專注于生成3-5秒的短視頻,但這對于廣告、直播帶貨等實際應用場景還不夠,1分鐘以上長視頻穩定生成解決了市場的需求痛點。雖然SkyReels-A3視頻生成長度仍然有限,但已經超出大多競品,通過多段視頻組合的方式,可以在保證時長的同時實現更精準控制。
實測6:多風格多主體效果。為了體驗不同風格生成,下面這是智東西用SkyReels-A3生成的一段3D卡通動漫視頻,畫面中的小松鼠聲情并茂地在講述它的經歷,活潑而富有童真,這或許在兒童教育場景有可觀的商用價值。
基于上述體驗和案例鑒賞,我們認為音頻驅動數字人可想象的落地場景大大擴展了,包括虛擬偶像、虛擬人直播、線上教師、面試官數字人、游戲助手等,SkyReels-A3生成的數字人都將能夠勝任。
在體驗的過程中,最令我震撼的還是從文案、音頻、圖案到視頻的全鏈條AI生成。每一步都只需要一個頭腦中的點子以及鼠標鍵盤簡單操作,到最后一步視頻生成“集大成”,或許只要幾分鐘,而且免費。這不禁讓人贊嘆:內容生產者的“創造力爆發”時代真的要來了。
橫掃開閉源SOTA,人工測評“五邊形戰士”
魔法般的生成效果背后,是昆侖萬維AI視頻大模型技術的又一次迭代。
目前,Skyreels-A3的性能通過廣泛的實驗進行了驗證,包括現有最先進模型(開源和閉源)的定量和定性比較,多項指標實現了SOTA(行業表現最佳)。
據悉,在定量評估中,Skyreels-A3在不同的音頻驅動場景的大多數指標上,超越了先進的開源模型omniavatar和閉源模型omnihuman等方法。
其尤其是在唇形同步(sync-c)方面表現出卓越的性能。同時,研發團隊引入了step蒸餾,采用了更少的步數 (40步減少為4步),效果幾乎沒有損失。
在人工測試中,Skyreels-A3對于面部和主體的穩定性,動作自然性都取得了最好的效果,同時在口型同步和人臉取得最好比較接近的結果,可以說是一個“五邊形戰士”。
右圖則是對于retalking進行了評測,結果顯示音畫同步和視頻質量都有明顯的優勢。
在定性分析中,Skyreels-A3模型在不同的應用場景中與OmniHuman、OmniAvatar、HunyuanAvatar等主流模型對比,都取得了不錯的生成效果。
據悉,Skyreels-A3生成的視頻視覺偽影(手部和動作扭曲)比較少,整體視覺質量更高,畫面更加自然。同時,對于半身復雜交互場景表現也更加優秀。
基于DiT視頻擴散模型,破解累計誤差痛點
當前數字人生成技術尚未達到市場要求的精準度。 以直播帶貨為例,大量數字人主播在講解口紅時,口型難精準匹配,拿起口紅時手部動作僵硬或“穿模”,運鏡呆板使得展示效果大打折扣,也難以長時間不卡頓跳幀……
市場迫切需要更精準的AI視頻生成能力——能實現跨場景精準口型同步、穩定長時輸出、更自然的交互生成和增強藝術化的運鏡控制。 昆侖萬維的Skyreels-A3正是瞄準這些核心痛點。自2024年起昆侖萬維就推出AI視頻模型SkyReels,而后瞄準電商直播等典型落地方向迭代模型。其本次推出的Skyreels-A3模型基于DiT(Diffusion Transformer)視頻擴散架構,架構能有效建模長時序依賴關系,擅長處理時間很長、前后關聯緊密的視頻內容,讓生成的視頻前后畫面連貫、有邏輯;同時Skyreels-A3引入3D變分自編碼器(3D-VAE)進行隱空間表征學習,在此空間內完成生成任務。這相當于把視頻壓縮成一個更小、更精煉的“核心版本”,就像把一部電影壓縮成一個很小的精華文件;然后在這個壓縮后的“核心空間” 里進行主要的視頻生成工作,從而顯著降低擴散模型計算復雜度,同時確保關鍵視覺特征的完整性。
如何生成高一致性的長視頻?傳統的延展方法由于生成誤差的累計,容易造成畫面逐漸崩壞。這就如同“走鋼絲”:依賴逐幀生成時,每一幀的微小誤差持續累積,導致畫面從細節失真逐步演變為全面崩壞——就像反復復印的圖紙,最終模糊成一團墨跡。昆侖萬維研發團隊采用全新的對齊訓練策略來進行視頻延展。通過歷史幀提供連續信息和參考圖提供畫面一致信息,如同架起一座穩固的橋梁支柱,來減少誤差累計,從而消除畫面崩壞,持續地生成連續且畫面不崩壞的分鐘級別的長視頻。
在手與物品的交互方面,研發團隊針對手部動作自然度和清晰度,構造了針對線上直播等場景的數據,并采用了不同seed和訓練過程checkpoints來生成大量候選,從而讓手上動作更自然和符合物理規律。此外值得一提的是,為了讓鏡頭語言更加靈動,研發團隊構造了一種基于ControlNet結構的鏡頭控制模塊,通過精細化鏡頭參數的輸入,實現幀級別精準運鏡控制。具體來說,這就好比給數字人所在場景做一個“3D深度掃描”,鏡頭控制模塊提取參考圖的深度信息,配合相機參數,渲染目標運鏡軌跡的參考視頻。而后AI就能生成運鏡示范視頻當模板,讓數字人視頻逐幀復刻電影級絲滑的運鏡效果。
結語:AI視頻生成走向精細化競賽,加速產業落地步伐
當下,AI視頻生成正深入表情與物理交互的微觀戰場,昆侖萬維SkyReels-A3以唇動毫米級同步、符合動力學的肢體交互、長視頻零崩壞等優勢突破精準卡位,推動視頻生成大模型迅速走向產業化。昆侖萬維在AI生成視頻領域的積累由來已久。早在2024年其就開始布局,而后相繼開源中國首個面向AI短劇創作的視頻生成模型SkyReels-V1,以及全球首個無限時長視頻生成模型SkyReels-V2。此次推出的Skyreels-A3則聚焦數字人賽道,展現了“技術到生產力”的強大穿透力,有助于視頻生成模型應用到直播、電商、教育、廣告等多個領域。作為昆侖萬維技術周首發成果,SkyReels-A3不僅為數字人領域立標,更預告著AI視頻生成將引爆內容產業效能革命,才剛剛開始。昆侖萬維技術周還有更多更新,我們將持續關注。
當家居消費從“功能需求”轉向“情緒價值”,... 【詳細】
當健康成為家居消費的核心訴求,莫干山植物源... 【詳細】
云峰莫干山「30年30人」,致敬每一位同行者!... 【詳細】
2025年7月22日,久盛地板有限公司在廣州舉辦超... 【詳細】
在剛剛公布的浙江省第二十五屆“科技興林獎”... 【詳細】