2 Stato dell’arte
Questo capitolo presenta il contesto scientifico e tecnico del presente lavoro. Verranno esaminati dapprima i fondamenti biomeccanici del salto verticale, poi i metodi consolidati e emergenti per acquisire il movimento umano, e infine lo stato attuale delle piattaforme markerless. In conclusione si identifica il gap che la tesi intende colmare.
2.1 Fondamenti biomeccanici del Countermovement Jump
Il Countermovement Jump (CMJ) — salto verticale con contromovimento — è caratterizzato da una sequenza di fasi bien definite. Durante la fase di decelerazione eccentrica, il corpo si flette sfruttando lo Stretch-Shortening Cycle (SSC) dei tessuti muscolotendinei; segue una fase di propulsione concentrica esplosiva fino al decollo; infine il volo e l’atterraggio [@mcmahon_2018_cmj_force_phases; @linthorne_2001_vertical_jump]. Questa segmentazione è divenuta lo standard consolidato nella letteratura biomeccanica moderna [@mcmahon_2018_cmj_force_phases].
L’analisi quantitativa del CMJ si basa sull’integrazione di variabili cinematiche e cinetiche. Le Ground Reaction Forces (GRF) costituiscono la forza di reazione che il suolo esercita sui piedi in risposta alla spinta impressa dall’atleta; esse sono solitamente normalizzate rispetto al peso corporeo (Body Weight, BW) per permettere il confronto tra soggetti diversi [@mcmahon_2018_cmj_force_phases]. Le forze articolari interne (Joint Reaction Forces, JRF), d’altro canto, rappresentano il carico meccanico effettivo trasmesso attraverso le superfici di contatto delle articolazioni (come il ginocchio o l’anca). Esse non sono semplici proiezioni della forza esterna, ma il risultato della combinazione tra carichi esterni, inerzia dei segmenti e l’intensa azione compressiva esercitata da muscoli e legamenti per stabilizzare l’articolazione durante il movimento [@cleather_2013_hip_knee]. Poiché non sono misurabili direttamente in vivo in modo non invasivo, la loro stima richiede l’applicazione della dinamica inversa. Completano il quadro le variabili cinematiche, quali gli angoli articolari e la traiettoria del Centro di Massa (CoM), fondamentali per quantificare la potenza prodotta e la coordinazione neuromuscolare [@mcmahon_2018_cmj_force_phases].
Un risultato centrale della biomeccanica del salto è la dissociazione fra carichi esterni e interni. Nel CMJ, le GRF di picco si attestano tra 1,9 e 2,8 BW in atleti amatoriali [@linthorne_2001_vertical_jump], mentre le Joint Reaction Forces tibiofemoral raggiungono 6,9–7,1 BW, un rapporto 3:1 dovuto alla biomeccanica sfavorevole dei bracci di leva articolari [@cleather_2013_hip_knee]. Questa discrepanza ha implicazioni cliniche importanti, spiegando il rischio elevato di lesioni articolari e tendinopatie in atleti non condizionati adeguatamente [@cleather_2013_hip_knee; @linthorne_2001_vertical_jump].
Nonostante l’apparente semplicità del movimento, la cinematica del CMJ esibisce notevole variabilità inter-individuale. Il Range of Motion del ginocchio varia tipicamente tra 85° e 110°, mentre lo spostamento verticale del CoM oscilla tra 25–35 cm in soggetti amatoriali e oltre 70 cm in atleti d’élite [@mcmahon_2018_cmj_force_phases]. Studi longitudinali hanno rivelato un aspetto controintuitivo: sebbene l’altezza del salto rimanga relativamente uniforme fra soggetti, la cinematica articolare è profondamente eterogenea. La variazione della flessione del ginocchio spiega circa l’89% della variabilità tecnica inter-individuale, indicando come strategie neuromotorie diverse conseguano performance simili [@mcmahon_2018_cmj_force_phases].
La scelta del CMJ come movimento-test è motivata da considerazioni biomeccaniche e pratiche. A differenza della locomozione, il CMJ è un evento discreto con inizio e fine ben definiti, facilitando l’acquisizione e l’analisi computazionale anche a basso frame rate (25 fps). Il movimento è inoltre privo delle complessità di transizione di contatto tipiche della locomozione e facilmente eseguibile in spazi contenuti con elevata replicabilità fra trial successivi. Queste proprietà rendono il CMJ il test standard per la valutazione della capacità esplosiva neuromuscolare, semplificando al contempo la sincronizzazione multi-telecamera e la segmentazione automatica nella pipeline markerless.
2.2 Tecnologie per l’acquisizione del movimento
I sistemi di acquisizione del movimento si dividono in categorie complementari. I sistemi marker-based (Vicon, Qualisys) rimangono lo standard di laboratorio, offrendo elevata precisione mediante telecamere infrarosse e marker retroriflettenti; tuttavia richiedono equipaggiamento costoso e controllato [@aleksic_2024_cmj_validation].
I sistemi markerless basati su pose estimation (OpenPose, MediaPipe, RTMPose) hanno colmato significativamente il divario di accuratezza negli ultimi anni, con errori sul CoM di 21–22 mm e correlazioni intra-classe superiori a 0,91 per il CMJ [@aleksic_2024_cmj_validation].
I sensori inerziali (IMU) offrono portabilità e robustezza ambientale, ma presentano deriva integrativa nei movimenti esplosivi [@teufl_imu_validity].
Le piattaforme di forza rimangono essenziali per la misura diretta della GRF, non sostituibili da sistemi ottici o inerziali [@ogura_2025_markerless_jumping_meta; @yang_2025_lower_limb_kinematic_comparison].
La pose estimation ha registrato progressi rapidi a partire da OpenPose (2017), il primo sistema a deep learning capace di localizzare simultaneamente keypoint articolari di più persone in tempo reale. RTMPose (2023) rappresenta lo stato dell’arte contemporaneo, raggiungendo >430 fps su GPU consumer con accuratezza del 75,8% su benchmark COCO. Crucialmente, la testa di regressione SimCC (Coordinate Classification) di RTMPose fornisce precisione sub-pixel, essenziale per il calcolo delle derivate cinematiche [@jiang_2023_rtmpose].
Per l’analisi biomeccanica del CMJ, l’uso di HALPE-26 (estensione di COCO-17 con 9 keypoint aggiuntivi, inclusi i dettagli del piede) è obbligato, poiché i keypoint del piede sono essenziali per rilevare gli istanti di toe-off e mitigare artefatti di “foot-skate” durante la cinematica inversa [@fang_2023_alphapose_halpe].
La ricostruzione della postura 3D da immagini 2D multi-vista richiede calibrazione (parametri intrinseci ed estrinseci) e triangolazione. Nel contesto multi-vista, il metodo classico è la triangolazione Linear Least-Squares (DLT), che calcola il punto 3D minimizzando l’errore di riproiezione dai proietti 2D [@pagnon_2022_joss_pose2sim]. Il filtraggio spazio-temporale mediante regolarizzazione (spline cubiche) e reiezione di outlier è essenziale per mitigare il rumore cinematico [@karashchuk_2021_anipose]. Alternative basate su modelli mesh parametrici (es. SMPL) offrono rappresentazioni scheletriche personalizzate ma maggiore complessità computazionale.
I sensori inerziali (IMU) misurano direttamente accelerazione lineare e velocità angolare, offrendo portabilità e indipendenza da vincoli geometrici. Tuttavia, la doppia integrazione numerica dell’accelerazione accumula errori sistematici durante movimenti ad alta accelerazione. Nel CMJ, Miranda-Oliveira et al. riportano coefficiente di correlazione R² ≈ 0,68 sulla stima dell’altezza di salto con IMU sacrali, con errore assoluto ±3 cm [@miranda_oliveira_2022_imu_cmj]. Di conseguenza, gli IMU rimangono complementari piuttosto che sostitutivi per applicazioni biomeccaniche che richiedono precisione metrica.
La stima delle forze muscolari specifiche — tramite elettromiografia (EMG) o ottimizzazione muscoloscheletrica — rappresenta un livello di dettaglio ulteriore, non affrontato in questa tesi. L’analisi si ferma ai carichi articolari complessivi (JRF), ottenuti mediante dinamica inversa senza esplicitare la ridondanza muscolare. Tale semplificazione è metodologicamente praticabile e compatibile con l’architettura modulare della pipeline, che consente l’integrazione futura di moduli di previsione muscolare.
2.3 Rappresentazione cinematica e post-processamento
La pose estimation si basa su convenzioni standardizzate per la rappresentazione dei keypoint. Lo standard COCO-17 definisce 17 keypoint corporei (articolazioni degli arti e punti posturali principali), sufficiente per molte applicazioni di riconoscimento posturale. Per l’analisi biomeccanica del CMJ, COCO-17 presenta tuttavia una limitazione critica: l’assenza di keypoint dettagliati del piede. HALPE-26 estende COCO-17 con 9 punti aggiuntivi (apice della testa, collo, pelvi anatomica, e sei keypoint del piede bilaterali), essenziali per rilevare gli istanti di toe-off e mitigare artefatti durante l’Inverse Kinematics [@fang_2023_alphapose_halpe].
Gli istanti di toe-off e heel-strike durante il CMJ rappresentano eventi temporali discreti essenziali per la segmentazione del movimento. Inoltre, durante l’Inverse Kinematics, la coerenza del modello 3D corporeo richiede informazioni dettagliate del piede; la loro assenza causa artefatti di “foot-skate” (scorrimento innaturale della pianta del piede) [@fang_2023_alphapose_halpe].
Il passaggio da 26 keypoint (pose estimation) a 65 marker anatomici OpenSim-compatibili avviene mediante marker augmentation: reti ricorrenti (LSTM/Transformer) addestrate su mocap sintetizzato che trasformano i keypoint sparsi in marker densi [@pagnon_2022_sensors_part1]. L’augmentazione riduce l’errore cinematico da ~9,6° (keypoint grezzi) a ~4,1° su movimenti benchmark [@falisse_2025_ieee_tbme_opencap; @ruescas_nicolau_2024_sensors_augmentation], costituendo il ponte fra acquisizione markerless e Inverse Kinematics.
La ricostruzione 3D multi-vista richiede calibrazione (parametri intrinseci e estrinseci da scacchiera) e triangolazione DLT: per ogni keypoint coniugato nelle due viste, la DLT calcola il punto 3D minimizzando l’errore di riproiezione. L’errore di riproiezione (<1 pixel) funge da indicatore di qualità geometrica; valori >10 pixel segnalano calibrazione difettosa o sincronizzazione inadeguata [@karashchuk_2021_anipose; @seyfu_2025_stereo_reprojection_sync].
2.4 Stima della Ground Reaction Force da video
La stima della Ground Reaction Force (GRF) da dati cinematici costituisce un problema inverso: date le osservazioni del movimento, ricavare le forze esterne che lo generano. Quando una piattaforma di forza non è disponibile — come in acquisizioni markerless da video — è necessario ricorrere a metodi alternativi. Tre famiglie di approcci coesistono nella letteratura, ognuna con distinti profili di accuratezza, costo computazionale e robustezza al rumore cinematico [@mcmahon_2018_cmj_force_phases].
I quattro metodi per stimare la GRF rappresentano un continuum di complessità e accuratezza. Il più semplice sfrutta il profilo di letteratura: la formulazione classica di Linthorne [-@linthorne_2001_vertical_jump] costruisce il profilo di forza nel CMJ a partire da parametri aggregati — l’altezza di salto e la massa corporea — sfruttando correlazioni empiriche sviluppate su migliaia di CMJ normali. Pur essendo rapido (<1 s) e robusto, questo metodo non individua variabilità inter-soggettuale e produce solo la componente verticale della forza, costituendo soprattutto uno strumento di validazione qualitativa per stime più complesse.
Aumentando la complessità, si può approssimare l’accelerazione del centro di massa con la coordinata verticale del bacino, il punto direttamente osservato nella cinematica acquisita. Differenziando due volte la traiettoria verticale della pelvi si risale alla GRF tramite la relazione \(GRF = m \cdot (a_{CoM} + g)\). Questa stima dal bacino risulta veloce (2–5 s per trial) e adattabile a ogni soggetto senza richiedere scaling del modello, con errore rispetto alla forceplate quantificato a 4,6–11,4% in precedenti validazioni markerless [@mascia_2023_smartphone_jump_ml; @colyer_2023_markerless_grf]. Tuttavia l’approssimazione introduce una distorsione sistematica durante il contrammovimento profondo — quando la flessione delle articolazioni abbassa il bacino mentre il tronco rimane elevato — ed è inoltre sensibile al rumore cinematico amplificato dalla doppia derivazione.
Un passo ulteriore consiste nel calcolare il vero Centro di Massa integrando la geometria e la distribuzione di massa del modello muscoloscheletrico personalizzato al soggetto. Disponibile come output dell’analisi cinematica inversa, la stima del CoM include la contribuzione di tronco, arti superiori e testa generalmente non catturati dalla semplice posizione del bacino. Sebbene l’errore si attesti nel medesimo intervallo della stima dal bacino, il profilo della GRF riproduce con fedeltà superiore la forma attesa dalla letteratura, specialmente nella fase eccentrica [@colyer_2023_markerless_grf]. Questo metodo riduce le distorsioni sistematiche nella geometria corporea e richiede il modello comunque necessario per l’Inverse Dynamics; la limitazione principale rimane la dipendenza dalla qualità dello scaling e la sensibilità al rumore cinematico.
Infine, l’ottimizzazione dinamica via direct collocation affronta il problema risolvendo cinematica e GRF incognita congiuntamente soggetto ai vincoli della dinamica newtoniana e del modello muscoloscheletrico — l’approccio implementato in OpenSim Moco [@dembia_2020_opensim_moco]. Questo metodo garantisce coerenza dinamica rigorosa, regolarizza automaticamente il rumore cinematico e fornisce tutte le componenti della GRF (verticale, laterale, trasversale). Il compromesso è il costo computazionale proibitivo (10–100 min per trial in configurazione full-body) e l’instabilità di convergenza su modelli 3D completi, rendendolo impraticabile per analisi sistematiche di sensibilità.
La tabella seguente sintetizza il profilo di ogni approccio:
| Aspetto | Profilo letteratura | Stima bacino | Stima del CoM | Ottimizzazione (Moco) |
|---|---|---|---|---|
| Dati richiesti | Massa, tempo di volo | Cinematica 3D | Cinematica 3D, scaling | Cinematica 3D, modello |
| Tempo di calcolo | <1 s | 2–5 s | 2–5 s | 10–100 min |
| Accuratezza (vs. forceplate) | Qualitativa | 4–11% | 4–11% | <2% (se converge) |
| GRF componenti | Solo verticale | Solo verticale | Solo verticale | Verticale, laterale, trasversale |
| Robustezza al rumore | Alta (aggregato) | Media (filtro necessario) | Media (filtro necessario) | Alta (regolarizzazione) |
| Scala inter-soggettuale | Universale | Personalizzato | Personalizzato | Personalizzato |
| Implementazione | Analitica (lookup) | Differenziazione numerica | Differenziazione numerica | Solver di ottimizzazione |
Nel presente lavoro, il profilo di letteratura è adottato come riferimento qualitativo per verificare che i risultati stimati rientrino nell’intervallo di plausibilità atteso. La stima del CoM (basata sul centro di massa personalizzato del modello) è designato come metodo primario perché rappresenta il migliore compromesso: è sufficientemente accurato, veloce, e consente personalizzazione senza richiedere risorse computazionali eccessive. La stima dal bacino e l’ottimizzazione dinamica sono implementate come varianti di confronto per l’analisi di sensibilità.
2.5 Stima dei carichi articolari mediante Inverse Kinematics e Inverse Dynamics
Una volta acquisita la cinematica del corpo — ovvero gli angoli delle articolazioni nel tempo — è necessario stimare quali carichi agiscono effettivamente all’interno delle articolazioni durante il movimento. Per questo si utilizza OpenSim, un software gratuito e open-source sviluppato all’Università di Stanford [@delp_2007_opensim], che è ormai lo standard della biomeccanica internazionale. OpenSim è costruito su principi modulari: permette di integrare dati esterni e algoritmi personalizzati senza sacrificare trasparenza e riproducibilità. Alla base del software opera Simbody, un motore fisico che garantisce l’accuratezza delle simulazioni dinamiche [@sherman_2011_simbody].
Il percorso per ottenere le forze articolari in OpenSim passa attraverso tre fasi consecutive. La cinematica inversa (IK, Inverse Kinematics) è la prima: dati 65 punti anatomici ricostruiti nello spazio tridimensionale, si determinano gli angoli articolari — ginocchio, anca, caviglia — che, applicati al modello, riproducono al meglio le posizioni osservate. Il software risolve un problema di ottimizzazione che minimizza la distanza fra marker misurati e marker predetti dal modello [@delp_2007_opensim].
La dinamica inversa (ID, Inverse Dynamics) è la seconda fase. Noti gli angoli articolari, la fisica newtoniana permette di risalire ai momenti articolari — le coppie di forza che ciascuna articolazione deve esercitare per produrre esattamente il movimento osservato. L’ID richiede tre dati: gli angoli dalla IK, la Ground Reaction Force misurata o stimata, e la distribuzione personalizzata della massa corporea del soggetto [@delp_2007_opensim].
L’analisi delle reazioni articolari (JRA, Joint Reaction Analysis) completa la pipeline. Calcolati i momenti articolari, la JRA ricava le forze interne che agiscono dentro le articolazioni durante il movimento. Come sottolineato in Sezione 2.1, queste forze interne superano notevolmente i valori di Ground Reaction Force registrati al suolo — un rapporto di 3:1 dovuto alla biomeccanica sfavorevole dei bracci di leva articolari [@cleather_2013_hip_knee]. È proprio la JRA che risponde alla domanda clinicamente rilevante: quali carichi devono tollerare le articolazioni, e sono carichi che potrebbero causare lesioni?
Nel calcolo delle forze interne sarebbe teoricamente necessario modellare esplicitamente tutti i muscoli e determinare la loro attivazione. Ma il problema è indeterminato: molte combinazioni muscolari diverse possono produrre lo stesso movimento. Si ricorre quindi a una strategia semplificata: si forniscono al modello i momenti articolari calcolati dall’ID, e il software determina le forze di reazione necessarie senza specificare quale muscolo le genera [@uhlrich_2023_opencap]. Questa semplificazione offre vantaggi concreti: il calcolo rimane veloce — dell’ordine dei minuti — e fornisce le forze articolari interne necessarie. Il compromesso è accettato consapevolmente: si perde l’informazione sulla coordinazione muscolare fine, un costo che è ragionevole per gli obiettivi di questa tesi.
2.6 Piattaforme attuali nel panorama scientifico e commerciale
Nel panorama attuale dei sistemi di analisi del movimento, OpenCap è la soluzione più nota per l’acquisizione da smartphone. L’utente registra un video con iPhone o iPad, lo carica sui server dell’Università di Stanford, e il sistema restituisce angoli articolari e forze calcolate in modo automatico. La praticità d’uso e la completezza della pipeline ne hanno fatto uno strumento molto adottato, con validazione scientifica solida [@uhlrich_2023_opencap; @cabuk_2026_opencap_metaanalysis].
I vincoli sono però significativi: OpenCap richiede dispositivi Apple, necessita di connessione internet, e non consente accesso al codice interno né modifiche ai parametri di calcolo. Per chi desideri comprendere ogni singolo passo della pipeline o adattarla a contesti specifici, rimane una “scatola nera” [@uhlrich_2023_opencap].
Theia3D rappresenta l’estremo opposto: una soluzione pensata per laboratori professionali ben equipaggiati. Utilizza 6–12 telecamere professionali sincronizzate e processamento locale su hardware dedicato con GPU, operando completamente offline. Il sistema eccelle in accuratezza e segue 124 punti anatomici corporei, superando in densità qualsiasi alternativa [@theia3d_2024_documentation; @kotani_2023_theia3d_boxjump].
Il prezzo della precisione è considerevole: hardware, telecamere e licenze software si attestano su decine di migliaia di euro. Come OpenCap, anche Theia3D rimane una piattaforma chiusa: la sua struttura interna non è modificabile [@theia3d_2024_documentation].
Pose2Sim occupa uno spazio diverso nel panorama. È un software gratuito e open-source realizzato da ricercatori francesi [@pagnon_2022_joss_pose2sim], che opera con due sole telecamere — anche webcam ordinarie — elaborando tutto localmente su qualsiasi computer, senza dipendenze cloud. La sua architettura è esplicitamente modulare: ogni componente è autonomo e sostituibile, permettendo estensioni e personalizzazioni.
Tuttavia, Pose2Sim ha un’incompletezza volitiva: trasforma il video in angoli articolari, ma non stima le forze. Gli autori hanno fatto questa scelta consapevolmente, riconoscendo che la stima della GRF comporta assunzioni fisiologiche specifiche per ogni individuo [@pagnon_2022_joss_pose2sim]. In questo spazio — fra acquisizione markerless e stima delle forze — si colloca il presente lavoro. Un confronto sinottico delle tre piattaforme:
| Piattaforma | Hardware | Connettività | Calcola le forze? | Costo |
|---|---|---|---|---|
| OpenCap | iPhone/iPad | Cloud (Stanford) | Sì | Subscription |
| Theia3D | 6–12 telecamere professionali | Offline | No | Decine di k€ |
| Pose2Sim | 2+ webcam standard | Offline | No | Gratuito |
La situazione rivela un divario: OpenCap è completo ma proprietario e cloud-dipendente; Theia3D è preciso ma inaccessibile economicamente; Pose2Sim è aperto e democratico, ma incompleto nella capacità di stimare le forze. Questa tesi estende Pose2Sim aggiungendo la stima della GRF, preservandone i vantaggi di modularità, operazione locale e accessibilità.
2.7 Identificazione del gap scientifico e contributi della presente tesi
Esaminando lo stato dell’arte emerge un vuoto significativo: non esiste un sistema che sia simultaneamente completo, gratuito, open-source e accessibile con hardware ordinario. OpenCap offre completezza, ma al costo di proprietà, dipendenza dal cloud e vincolo a Apple. Pose2Sim garantisce libertà e semplicità hardware, ma rimane frammentario: acquisisce il movimento ma non stima le forze.
Il presente lavoro intende colmare questa lacuna estendendo Pose2Sim con la capacità di stimare la GRF utilizzando i tre metodi descritti in Sezione 2.4. L’obiettivo è una pipeline end-to-end che, a partire da video ordinari, produca forze articolari interne. Tutto eseguibile su un laptop standard, completamente offline, con trasparenza e modularità preservate [@pagnon_2022_joss_pose2sim; @uhlrich_2023_opencap].
L’ambizione di questo progetto è di restituire al ricercatore piena trasparenza e controllo su ogni fase del calcolo, in modo che la sostituzione di un metodo di stima della GRF con un altro non rimetta in discussione l’acquisizione a monte.
L’indagine si fonda su un numero ristretto di soggetti e in assenza di una piattaforma di forza come termine di confronto diretto; le domande affrontate hanno carattere esplorativo. L’analisi si concentra sulla sensibilità del sistema a variazioni della risoluzione della telecamera e del metodo di stima della GRF.