
Netflix ha compiuto un passo storico nell’ambito dell’intelligenza artificiale applicata ai media, rilasciando pubblicamente VOID — acronimo di Video Object and Interaction Deletion — un framework open-source capace di cancellare oggetti dai video non solo a livello visivo, ma anche simulando correttamente le conseguenze fisiche della loro rimozione.
Il progetto è stato sviluppato dai ricercatori di Netflix in collaborazione con l’INSAIT di Sofia University, ed è disponibile su GitHub e Hugging Face con licenza Apache 2.0.
Un Problema Irrisolto per Decenni: La Fisica Nascosta nei Video
L’editing video professionale ha sempre nascosto una difficoltà fondamentale: rimuovere un oggetto da una scena è tecnicamente semplice, ma rendere il risultato credibile è straordinariamente complesso.
Gli strumenti tradizionali di video inpainting si limitano a riempire i pixel vuoti con sfondi sintetizzati, correggendo artefatti visivi come ombre e riflessi. Ciò che non riescono a fare è ragionare sulla causalità fisica: se si elimina un attore che sorregge una chitarra, lo strumento rimane sospeso nell’aria in modo innaturale, oppure scompare del tutto. I team VFX di Hollywood spendono settimane a correggere manualmente questo tipo di incongruenze, fotogramma per fotogramma.
VOID risolve alla radice questo problema, introducendo per la prima volta la comprensione delle interazioni fisiche causate dall’oggetto rimosso.
La Quadmask: L’Innovazione Tecnica che Cambia Tutto
Il cuore dell’architettura di VOID risiede in un’innovazione tecnica chiamata quadmask, una maschera semantica a quattro valori distinti che rappresenta una svolta rispetto alle tradizionali maschere binarie.
Mentre le maschere convenzionali distinguono solo tra “elimina” e “conserva”, la quadmask di VOID codifica quattro categorie semantiche: l’oggetto primario da rimuovere, le aree di sovrapposizione, le regioni fisicamente interessate dalla rimozione (ad esempio un oggetto che cadrebbe), e lo sfondo da preservare. Questa struttura fornisce al modello una mappa semantica completa della scena, permettendogli non solo di capire dove si trova l’oggetto, ma cosa accadrà fisicamente nella scena dopo la sua scomparsa.
L’esempio più emblematico del paper di ricerca riguarda proprio la chitarra: se viene rimossa la persona che la sostiene, VOID calcola una traiettoria controfattuale per lo strumento, facendolo cadere naturalmente per gravità, esattamente come avverrebbe nel mondo reale.
L’Architettura: Un Motore da 5 Miliardi di Parametri

VOID è costruito sopra CogVideoX-Fun-V1.5-5b-InP, un modello transformer 3D sviluppato da Alibaba PAI, e fine-tuned da Netflix per il video inpainting con il condizionamento a quadmask. Il modello conta 5 miliardi di parametri, opera a una risoluzione di default di 384×672 pixel, elabora un massimo di 197 fotogrammi per sequenza e utilizza lo scheduler DDIM in formato BF16 con quantizzazione FP8 per l’efficienza in memoria.
Il framework adotta un pipeline di inferenza a due passaggi. Il primo passaggio (Pass 1) è il modello di inpainting principale ed è sufficiente per la maggior parte dei video. Il secondo passaggio (Pass 2) viene attivato per correggere un problema noto nei modelli di diffusione video: il morphing degli oggetti, ovvero la deformazione progressiva dei soggetti sintetizzati nel corso dei fotogrammi.
Grazie a tecniche di flow-warped noise stabilization, VOID ancora la forma degli oggetti sintetizzati fotogramma per fotogramma, eliminando quell’effetto “flicker” spesso visibile nei video generati da AI.
Dati Sintetici e Fisica Simulata: Come VOID Ha Imparato le Leggi della Natura
Addestrare un modello a comprendere le interazioni fisiche richiede dati di training che nel mondo reale semplicemente non esistono in modo strutturato. Il team di ricerca ha risolto il problema costruendo dataset sintetici controfattuali a partire da due fonti principali: HUMOTO e Kubric.
HUMOTO sfrutta dati di motion capture di interazioni umano-oggetto renderizzati in Blender con simulazione fisica. Il meccanismo chiave è una re-simulazione: la scena viene renderizzata prima con la presenza umana, poi il personaggio viene rimosso e la fisica viene ricalcolata ab initio. Il risultato sono coppie di video fisicamente corrette. Kubric, sviluppato da Google Research, applica la stessa logica alle collisioni tra oggetti inanimati, utilizzando Google Scanned Objects. Insieme, producono un dataset di coppie di video in cui la fisica è matematicamente provata, non approssimata.
Risultati e Confronto con i Competitor
I risultati ottenuti da VOID nei test su dati sintetici e reali sono significativi. In test di preferenza umana condotti contro i principali modelli concorrenti, tra cui Runway, ProPainter, DiffuEraser, MiniMax-Remover, ROSE e Gen-Omnimatte, VOID è stato preferito dai valutatori nel 64,8% dei casi, mentre il concorrente più vicino ha ottenuto appena il 18,4%.
Questo margine netto riflette la differenza qualitativa percepibile a occhio nudo: le scene elaborate da VOID risultano fisicamente coerenti e prive degli artefatti comuni agli strumenti precedenti. Per i professionisti della post-produzione, ciò si traduce in una riduzione drastica dei tempi e dei costi legati alla pulizia del footage.
Un Cambio di Paradigma per l’Industria Audiovisiva e le Questioni Etiche
Le implicazioni di VOID per l’industria del cinema e della televisione sono profonde. La rimozione di oggetti indesiderati — un processo chiamato rotoscoping e inpainting — è tradizionalmente una delle operazioni più costose e laboriose nella produzione VFX. L’apertura open-source del framework significa che strumenti prima riservati ai grandi studios hollywoodiani diventano accessibili a filmmaker indipendenti, piccoli studi e creator digitali di tutto il mondo.
Tuttavia, la capacità di cancellare oggetti con tale perfezione fisica solleva interrogativi etici urgenti. Se un’AI può eliminare una persona da una scena e simulare correttamente l’erba che si muove al vento o le ombre che scompaiono, i segnali visivi che gli esseri umani usano per riconoscere un video manipolato vengono azzerati. Questa capacità di “cancellazione perfetta” pone sfide concrete per il giornalismo, le prove legali e la fiducia nei contenuti digitali. La comunità tecnologica segnala l’urgenza di standard di watermarking digitale e provenance come il protocollo C2PA.
Un Futuro in cui il Video è Malleabile come il Testo
Il rilascio di VOID segna un momento di transizione nell’intelligenza artificiale applicata ai media: non più modelli che si limitano a “far sembrare giusti i pixel”, ma sistemi che comprendono perché le cose si muovono e interagiscono nel modo in cui lo fanno. Integrando il ragionamento causale con la diffusione video, il framework avvicina l’industria a un futuro in cui il video è tanto malleabile quanto il testo.
Per Netflix, questa ricerca non riguarda solo la riduzione dei budget VFX interni: è la costruzione di una fondazione per una nuova era di creazione automatizzata di contenuti, in cui il confine tra il mondo catturato dalla telecamera e quello sintetizzato dall’intelligenza artificiale diventa sempre più sottile.
VOID si può provare anche online tramite una demo interattiva su Hugging Face
Per chi vuole capire in modo immediato come funziona VOID senza configurare l’ambiente locale o scaricare i checkpoint, esiste anche una demo online ospitata su Hugging Face Spaces a questo indirizzo. Il repository ufficiale di Netflix la segnala esplicitamente come “Gradio Demo” per provare il sistema direttamente dal browser, rendendo l’accesso molto più semplice anche a chi non dispone di una GPU da 40 GB o di un setup tecnico avanzato.

Questa versione web rappresenta quindi il modo più rapido per esplorare le potenzialità del framework, osservare l’eliminazione degli oggetti dai video e farsi un’idea concreta dell’approccio interaction-aware che distingue VOID dagli strumenti di inpainting tradizionali.
La disponibilità open-source di uno strumento tanto potente garantisce che il dibattito su queste trasformazioni non sia guidato solo da grandi corporation, ma da una comunità globale di ricercatori e artisti pronti a esplorarne i limiti e le responsabilità.















Ultrapic prolunga l'offerta esclusiva: 5000 crediti gratuiti dopo il giveaway sold-out
Raccolta di sfondi, wallpapers, blocco schermo dedicati al mondo Apple, iPhone, iPad e Mac
Raccolta completa di software Screencast per catturare i movimenti sullo schermo
FlexClip AI PPT to Video: lo strumento che trasforma le presentazioni PowerPoint in PDF
10 migliori alternative a Sora: scopriamo meglio questi servizi AI per creare video dal testo
Ashampoo lancia Home Design 11 e Home Design Pro 11: due soluzioni per progettare casa in 2D e 3D