Netflix Lancia VOID: Il Rivoluzionario Framework AI che Riscrive la Fisica dei Video (da provare qui)

05/04/2026 Mooseek

Condividi su Facebook Condividi su X Condividi su LinedIn Condividi su Telegram Condividi su WhatsApp Condividi su Flipboard Condividi su Pinterest Condividi su Tumblr Condividi via SMS Condividi via Email Condividi Ora

Netflix ha compiuto un passo storico nell’ambito dell’intelligenza artificiale applicata ai media, rilasciando pubblicamente VOID — acronimo di Video Object and Interaction Deletion — un framework open-source capace di cancellare oggetti dai video non solo a livello visivo, ma anche simulando correttamente le conseguenze fisiche della loro rimozione.

Il progetto è stato sviluppato dai ricercatori di Netflix in collaborazione con l’INSAIT di Sofia University, ed è disponibile su GitHub e Hugging Face con licenza Apache 2.0.



Un Problema Irrisolto per Decenni: La Fisica Nascosta nei Video

L’editing video professionale ha sempre nascosto una difficoltà fondamentale: rimuovere un oggetto da una scena è tecnicamente semplice, ma rendere il risultato credibile è straordinariamente complesso.

Gli strumenti tradizionali di video inpainting si limitano a riempire i pixel vuoti con sfondi sintetizzati, correggendo artefatti visivi come ombre e riflessi. Ciò che non riescono a fare è ragionare sulla causalità fisica: se si elimina un attore che sorregge una chitarra, lo strumento rimane sospeso nell’aria in modo innaturale, oppure scompare del tutto. I team VFX di Hollywood spendono settimane a correggere manualmente questo tipo di incongruenze, fotogramma per fotogramma.

VOID risolve alla radice questo problema, introducendo per la prima volta la comprensione delle interazioni fisiche causate dall’oggetto rimosso.

La Quadmask: L’Innovazione Tecnica che Cambia Tutto

Il cuore dell’architettura di VOID risiede in un’innovazione tecnica chiamata quadmask, una maschera semantica a quattro valori distinti che rappresenta una svolta rispetto alle tradizionali maschere binarie.

Mentre le maschere convenzionali distinguono solo tra “elimina” e “conserva”, la quadmask di VOID codifica quattro categorie semantiche: l’oggetto primario da rimuovere, le aree di sovrapposizione, le regioni fisicamente interessate dalla rimozione (ad esempio un oggetto che cadrebbe), e lo sfondo da preservare. Questa struttura fornisce al modello una mappa semantica completa della scena, permettendogli non solo di capire dove si trova l’oggetto, ma cosa accadrà fisicamente nella scena dopo la sua scomparsa.

L’esempio più emblematico del paper di ricerca riguarda proprio la chitarra: se viene rimossa la persona che la sostiene, VOID calcola una traiettoria controfattuale per lo strumento, facendolo cadere naturalmente per gravità, esattamente come avverrebbe nel mondo reale.

L’Architettura: Un Motore da 5 Miliardi di Parametri

VOID è costruito sopra CogVideoX-Fun-V1.5-5b-InP, un modello transformer 3D sviluppato da Alibaba PAI, e fine-tuned da Netflix per il video inpainting con il condizionamento a quadmask. Il modello conta 5 miliardi di parametri, opera a una risoluzione di default di 384×672 pixel, elabora un massimo di 197 fotogrammi per sequenza e utilizza lo scheduler DDIM in formato BF16 con quantizzazione FP8 per l’efficienza in memoria.

Il framework adotta un pipeline di inferenza a due passaggi. Il primo passaggio (Pass 1) è il modello di inpainting principale ed è sufficiente per la maggior parte dei video. Il secondo passaggio (Pass 2) viene attivato per correggere un problema noto nei modelli di diffusione video: il morphing degli oggetti, ovvero la deformazione progressiva dei soggetti sintetizzati nel corso dei fotogrammi.



Grazie a tecniche di flow-warped noise stabilization, VOID ancora la forma degli oggetti sintetizzati fotogramma per fotogramma, eliminando quell’effetto “flicker” spesso visibile nei video generati da AI.

Dati Sintetici e Fisica Simulata: Come VOID Ha Imparato le Leggi della Natura

Addestrare un modello a comprendere le interazioni fisiche richiede dati di training che nel mondo reale semplicemente non esistono in modo strutturato. Il team di ricerca ha risolto il problema costruendo dataset sintetici controfattuali a partire da due fonti principali: HUMOTO e Kubric.

HUMOTO sfrutta dati di motion capture di interazioni umano-oggetto renderizzati in Blender con simulazione fisica. Il meccanismo chiave è una re-simulazione: la scena viene renderizzata prima con la presenza umana, poi il personaggio viene rimosso e la fisica viene ricalcolata ab initio. Il risultato sono coppie di video fisicamente corrette. Kubric, sviluppato da Google Research, applica la stessa logica alle collisioni tra oggetti inanimati, utilizzando Google Scanned Objects. Insieme, producono un dataset di coppie di video in cui la fisica è matematicamente provata, non approssimata.

Risultati e Confronto con i Competitor

I risultati ottenuti da VOID nei test su dati sintetici e reali sono significativi. In test di preferenza umana condotti contro i principali modelli concorrenti, tra cui Runway, ProPainter, DiffuEraser, MiniMax-Remover, ROSE e Gen-Omnimatte, VOID è stato preferito dai valutatori nel 64,8% dei casi, mentre il concorrente più vicino ha ottenuto appena il 18,4%.

Questo margine netto riflette la differenza qualitativa percepibile a occhio nudo: le scene elaborate da VOID risultano fisicamente coerenti e prive degli artefatti comuni agli strumenti precedenti. Per i professionisti della post-produzione, ciò si traduce in una riduzione drastica dei tempi e dei costi legati alla pulizia del footage.

Un Cambio di Paradigma per l’Industria Audiovisiva e le Questioni Etiche

Le implicazioni di VOID per l’industria del cinema e della televisione sono profonde. La rimozione di oggetti indesiderati — un processo chiamato rotoscoping e inpainting — è tradizionalmente una delle operazioni più costose e laboriose nella produzione VFX. L’apertura open-source del framework significa che strumenti prima riservati ai grandi studios hollywoodiani diventano accessibili a filmmaker indipendenti, piccoli studi e creator digitali di tutto il mondo.

Tuttavia, la capacità di cancellare oggetti con tale perfezione fisica solleva interrogativi etici urgenti. Se un’AI può eliminare una persona da una scena e simulare correttamente l’erba che si muove al vento o le ombre che scompaiono, i segnali visivi che gli esseri umani usano per riconoscere un video manipolato vengono azzerati. Questa capacità di “cancellazione perfetta” pone sfide concrete per il giornalismo, le prove legali e la fiducia nei contenuti digitali. La comunità tecnologica segnala l’urgenza di standard di watermarking digitale e provenance come il protocollo C2PA.

Un Futuro in cui il Video è Malleabile come il Testo

Il rilascio di VOID segna un momento di transizione nell’intelligenza artificiale applicata ai media: non più modelli che si limitano a “far sembrare giusti i pixel”, ma sistemi che comprendono perché le cose si muovono e interagiscono nel modo in cui lo fanno. Integrando il ragionamento causale con la diffusione video, il framework avvicina l’industria a un futuro in cui il video è tanto malleabile quanto il testo.

Per Netflix, questa ricerca non riguarda solo la riduzione dei budget VFX interni: è la costruzione di una fondazione per una nuova era di creazione automatizzata di contenuti, in cui il confine tra il mondo catturato dalla telecamera e quello sintetizzato dall’intelligenza artificiale diventa sempre più sottile.

VOID si può provare anche online tramite una demo interattiva su Hugging Face

Per chi vuole capire in modo immediato come funziona VOID senza configurare l’ambiente locale o scaricare i checkpoint, esiste anche una demo online ospitata su Hugging Face Spaces a questo indirizzo. Il repository ufficiale di Netflix la segnala esplicitamente come “Gradio Demo” per provare il sistema direttamente dal browser, rendendo l’accesso molto più semplice anche a chi non dispone di una GPU da 40 GB o di un setup tecnico avanzato.

Questa versione web rappresenta quindi il modo più rapido per esplorare le potenzialità del framework, osservare l’eliminazione degli oggetti dai video e farsi un’idea concreta dell’approccio interaction-aware che distingue VOID dagli strumenti di inpainting tradizionali.

La disponibilità open-source di uno strumento tanto potente garantisce che il dibattito su queste trasformazioni non sia guidato solo da grandi corporation, ma da una comunità globale di ricercatori e artisti pronti a esplorarne i limiti e le responsabilità.

Commenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Altri Articoli

Scopriamo HappyHorse, il generatore AI di video di nuova generazione (by Alibaba)

HappyHorse 1.0 rappresenta una rivoluzione nel campo della generazione video AI, posizionandosi come la soluzione più avanzata disponibile attualmente per trasformare testo e immagini in video cinematografici di alta qualità. Questo software combinato a intelligenza artificiale offre capacità sorprendenti di sintesi del movimento, narrazione multi-scena coerente e generazione sincronizzata di audio e video in un’unica […]

11-04-26 Continua

10 servizi di social listening da valutare nel 2026: piattaforme, vantaggi e svantaggi

Di seguito viene proposta una versione aggiornata dell’articolo, senza riferimenti alle fonti e con pro e contro separati per ogni servizio. Il focus resta sui software più noti per il social listening, utili per monitorare conversazioni online, reputazione del brand, trend emergenti e segnali di crisi. Il social listening è diventato una leva sempre più […]

10-04-26 Continua

Raccolta di Servizi Online e Applicazioni per risparmiare con i prezzi dei carburanti

Mai come in questo periodo l’attenzione dei consumatori verso i  prezzi dei beni di consumo è cosi alta. Una situazione delicata che gli eventi internazionali rendendo ancora più complicato da gestire, creando uno scenario di non facile soluzione. In quello che sembra essere diventato un far-west fortunatamente esistono possibilità di risparmiare  sui carburanti, anche in […]

08-04-26 Continua

Netflix Lancia VOID: Il Rivoluzionario Framework AI che Riscrive la Fisica dei Video (da provare qui)

Netflix ha compiuto un passo storico nell’ambito dell’intelligenza artificiale applicata ai media, rilasciando pubblicamente VOID — acronimo di Video Object and Interaction Deletion — un framework open-source capace di cancellare oggetti dai video non solo a livello visivo, ma anche simulando correttamente le conseguenze fisiche della loro rimozione. Il progetto è stato sviluppato dai ricercatori […]

05-04-26 Continua

Tante Risorse, Siti Web, Sfondi e Giochi dedicati alla Pasqua

Anche quest’anno, la Pasqua 2026 è alle porte, portando gioia e felicità a grandi e piccini: è tempo di festività, pranzi in famiglia e sorprese da condividere con allegria e divertimento. Per chiunque si stia preparando a trascorrere momenti di relax con i propri cari, magari attraverso il gioco, perché non immergersi subito nell’atmosfera pasquale? Si […]

03-04-26 Continua

Ashampoo lancia un’iniziativa speciale per Pasqua 2026: Backup Pro 26 gratis fino al 30 Aprile

Un regalo di Pasqua per tutti gli utenti di Mooseek Con l’arrivo della Pasqua 2026, Ashampoo, in collaborazione con Mooseek, ha annunciato un’iniziativa promozionale dedicata agli utenti del web, offrendo gratuitamente la versione completa di Ashampoo Backup Pro 26, il celebre software per il backup e la protezione dei dati. L’offerta, dal valore commerciale di […]

02-04-26 Continua

Tutti gli Articoli