Aggiornamento sull’attività del progetto ‘Condor on WAN’ dall’ultima riunione di settembre 98.
Segue la lista delle action decisa nella riunione.
Argomenti da approfondire con M.Livny:
15-16 ottobre, seminario di M.Livny e discussione sui punti elencati sopra
Il seminario era focalizzato sulle novità in corso di implementazione per aumentare il ‘goodput’.
(Le trasparenze sono reperibili nel web www.mi.infn.it/condor)
Vengono illustrati i vari stati del funzionamento di Condor per individuare i punti che possono essere migliorati al fine di aumentare sia il throughput sia il goodput.
Fra i vari meccanismi individuati per questo improvement c’è anche il caching per migliorare il ‘remote I/Ò e alcune novità sul checkpointing. Si rimanda alla lettura delle trasparenze per approfondire questi punti.
Contributi della discussione con Miron in merito alle action.
La task force INFN per la definizione e l’implementazione del checkponting distribuito e dinamico è attualmente costituita da Ferrari, Ghiselli, Mazzanti, Semeria e Vistoli.
Commissione Calcolo del 28 settembre scorso.
L’attività di Condor è stata presentata nell’ultima Commissione Calcolo (la presentazione è disponibile su web) e sono stati finaziati 10Mlire su budget 98 per trasferte a Madison per il problema del checkpointing distribuito. Come sapete l’obiettivo principale per la Comm.Calcolo è la messa in funzione del pool geografico per tutta l’utenza INFN, dove il ckpt distribuito è uno strumento indispensabile. Entro fine anno va definita la proposta (layout, policy, gestione….) ed entro primavera dell’anno prossimo va completata l’implementazione.
Come abbiamo già discusso una prima implementazione è costituita dai sub-pool e dobbiamo formalizzare al più presto il gruppo infn di condor-admin.
La Comm.Calcolo ha raccomandato di inserire da subito nel pool più macchine possibile e ha nominato 2 referee per il progetto: Pollarolo e Merola.
CNTC del 30 settembre scorso
È stato fatto un aggiornamento del progetto nell’ultima riunione di CNTC dove è stata ribadita la necessità di avere al più presto il sistema Condor geografico in produzione con un management ben definito e di configurare le evoluzioni come progetti distinti con la partecipazione INFN e del Condor-team di Madison.
Possiamo quindi definire "Condor on WAN" , cosi’ come è descritto nel documento memorizzato nella pagina web degli esperimenti dell’INFN, (www.infn.it/condor/) un "framework" a cui afferiscono diversi progetti. Attualmente possiamo identificarne 3, corrispondenti agli obiettivi descritti nel documento medesimo:
di cui i primi due sono già definiti.
Abbiamo ritenuto opportuno questo aggiornamento via e.mail anche per verificare se è necessaria la riunione prevista per il 12 novembre prossimo. Il motivo è anche logistico e legato a sopraggiunte difficoltà a partecipare alla riunione per i bolognesi della sezione.
Noi riteniamo che la discussione sui punti descritti sopra possa svolgersi per e.mail e non sia necessaria una riunione a breve, ma se non siete dello stesso parere fatecelo sapere.
La riunione potrebbe essere rimandata a gennaio, dopo la trasferta a Madison, per discutere:
Cordiali saluti,
Antonia Ghiselli e Paolo Mazzanti
Istruzioni per la configurazione del sub-pool o domini, e l’utilizzo di NFS per i job I/O bound; P.Mazzanti, D.Bortolotti
Il proseguimento della sperimentazione sul pool INFN ha senso se e solo se si
raggiunge un numero adeguato di macchine.
Nelle condizioni attuali, 90 macchine, di cui, in effetti, soltanto 55 vengono
usate(il sottoinsieme 'ALPHA'), quasi ogni cosa che sia condor compatibile puo'
essere sottomessa al sistema senza rischi, ad esempio, per la rete.
E' estremamente necessario aggiungere macchine al pool.
Quanto segue e' un possibile modo di aggiungere macchine al pool Nazionale
con la assoluta certezza che gli utenti del pool locale non perderanno
alcune delle risorse in loro possesso.
Questo puo' essere realizzato con un configurazione del condor pool locale
nel modo seguente.
Inserire nel condor_config globale:
UID_DOMAIN = yyy.infn.it
SOFT_UID_DOMAIN = True
E nel condor_config.local di ogni macchine del working group w1
SUBMIT_GROUP_ID = w1_Group
SUBMIT_UID_DOMAIN = "$(UID_DOMAIN)"
SUBMIT_EXPRS = SUBMIT_GROUP_ID, SUBMIT_UID_DOMAIN
RANK: (SUBMIT_UID_DOMAIN =?= "yyy.infn.it") + (10 * (SUBMIT_GROUP_ID =?= "w1_Group"))
Nel condor_config.local di ogni macchine del working group w2
SUBMIT_GROUP_ID = w2_Group
SUBMIT_UID_DOMAIN = "$(UID_DOMAIN)"
SUBMIT_EXPRS = SUBMIT_GROUP_ID, SUBMIT_UID_DOMAIN
RANK: (SUBMIT_UID_DOMAIN =?= "yyy.infn.it") + (10 * (SUBMIT_GROUP_ID =?= "w2_Gr+
ecc.
Ora un appropriato condor submit file per il working group w2 potrebbe essere:
executable = foo
rank = SUBMIT_UID_DOMAIN == "yyy.infn.it" + SUBMIT_GROUP_ID == "w2_Group"
....
queue
L'effetto su sistema di questo submit file e':
- i jobs provenienti da altri domini e/o gruppi vengono fatti migrare dalle
macchine del dominio
- esecuzione prioritaria per macchine che sono contemporaneamente in yyy.infn.it
e w2_Group.
- in seconda priorita' viene la possibilita di runnare su macchine che sono o
in yyy.infn.it o appartenenti al w2_Group.
- se nessuna di queste risorse e' disponibile si tenta l'esecuzione ovunque.
Ribadiamo che la configurazione proposta da la possibilita' ad in pool locale
di inserirsi completamente nel pool nazionale senza alcuna perdita di risorse.
E' conveniente che il CKPT server locale venga mantenuto tale.
Si veda in ogni caso il manuale .....
=============================================================================
Durante la sperimentazione di condor si sono notate, ovviamente, le sue
limitazione per programmi I/O bound.
Una possibile soluzione che ha senso soprattutto in ambito locale (LAN) e
rappresentata dall'utilizzo di NFS.
Le uniche limitazioni all'efficienza in ambito condor sono quelle intrinseche
di NFS.
E` stata condotta, in tal senso, una sperimentazione con un sottoinsieme di
alpha e alcuni PC-Linux presenti nel pool di Bologna.
Le macchine alpha selezionate condividono il data-base di account
(sono in NIS) mentre i PC-Linux dispongono di data-base distinti.
Ai fini della sperimentazione NFS, si e` reso necessario uniformare i valori
di UID e GID degli account tra le due differenti piattaforme (UID_DOMAIN),
pertanto sono stati creati nei PC user-login identici a quelli preesistenti
negli alpha.
Inoltre si e` instaurata una condivisione dei dischi tra gli elementi di
questo sottoinsieme (necessaria per il parametro FILESYSTEM_DOMAIN).
Nell'ambito dei parametri di condor di tali macchine sono stati definiti:
FILESYSTEM_DOMAIN = yyy.infn.it (bo.infn.it)
UID_DOMAIN = yyy.infn.it (bo.infn.it)
USE_NFS = True
# HAS_AFS = True
# USE_AFS = True
In seguito i jobs di test sono stati sottomessi da una macchina di tale
sottoinsieme specificando negli script di scheduling come richiesta di risorse:
rank = FileSystemDomain == "yyy.infn.it"
Che puo' essere, volendo, modoficata aggiungendo l'espressione di cui sopra:
rank = FileSystemDomain == "yyy.infn.it" + SUBMIT_UID_DOMAIN == "yyy.infn.it" +
SUBMIT_GROUP_ID == "w2_Group"
In questo modo Condor tenta le I/O dalla macchina su cui e` in esecuzione
senza affidare l'incarico alla macchina da cui e` stato sottomesso.
Come risultato finale la I/O sulla rete viene eseguita una sola volta anziche`
due e il processo "shadow" sulla macchina di scheduling risulta occupare una
percentuale bassissima di CPU.