Databricks annuncia importanti progressi nei progetti Open Source al Data + AI Summit
Tutte le nuove features di Delta Lake sono state offerte alla comunità open della Linux Foundation con il rilascio di Delta Lake 2.0
MLflow 2.0 con ML Pipelines accelera il time-to-production per i progetti di machine learning
Presentato Spark Connect per l’esecuzione di Apache Spark™ su qualsiasi dispositivo
Svelato il progetto Lightspeed per la nuova generazione di Spark Streaming
SAN FRANCISCO – 28 giugno 2022 – Databricks, Data and AI company pioniera del paradigma del data lakehouse, ha annunciato oggi numerosi progressi in importanti progetti open source di dati e IA tra cui Delta Lake, MLflow e Apache Spark.
In occasione del Data + AI Summit, il più grande incontro della comunità open source Dati e IA, Databricks ha annunciato che intende contribuire alla Linux Foundation con tutte le funzionalità e i progressi apportati a Delta Lake e rendere open source tutte le API di Delta Lake come parte del lancio di Delta Lake 2.0. Inoltre, l’azienda ha annunciato MLflow 2.0, che include MLflow Pipelines, una nuova funzionalità per accelerare e semplificare le implementazioni dei modelli ML. Infine, l’azienda ha presentato Spark Connect, per consentire l’utilizzo di Spark su qualsiasi dispositivo, e Project Lightspeed, un motore Spark Structured Streaming di nuova generazione per lo streaming dei dati su lakehouse.
“Fin dall’inizio, Databricks si è impegnata a favore di standard open e della comunità open source. Abbiamo creato, partecipato, donato e favorito la crescita di alcune delle tecnologie open source di maggior impatto esistenti”, ha dichiarato Ali Ghodsi, Co-Founder e CEO di Databricks. “I data lakehouse aperti stanno rapidamente diventando lo standard per la gestione dei dati e dell’IA per le aziende più innovative. Delta Lake, MLflow e Spark sono tutti elementi fondamentali di questa trasformazione architetturale e siamo orgogliosi di fare la nostra parte per accelerarne l’innovazione e l’adozione”.
Delta Lake 2.0 offre la Lakehouse a tutti
Delta Lake 2.0 offrirà a tutti gli utenti di Delta Lake, query dalle performance senza precedenti e consentirà a tutti di costruire un data lakehouse altamente performante su standard open. Grazie a questo contributo, i clienti di Databricks e la comunità open source potranno beneficiare di tutte le funzionalità e delle prestazioni migliorate di Delta Lake 2.0. Delta Lake 2.0 Release Candidate è ora disponibile e il lancio è previsto per la fine dell’anno. La portata dell’ecosistema Delta Lake lo rende flessibile e potente in diversi casi d’uso; ad alimentarlo è una vivace comunità di oltre 6.400 membri, con sviluppatori provenienti da più di 70 organizzazioni che vi contribuiscono.
“Databricks fornisce ad Akamai un formato di archiviazione delle tabelle aperto e certificato per carichi di lavoro particolarmente complessi come i nostri. Il lakehouse consente di effettuare analisi interattive su qualsiasi volume di dati, in modo che i nostri clienti possano analizzare in maniera near-realtime gli eventi di sicurezza sulla nostra piattaforma Edge”, ha dichiarato Aryeh Sivan, VP Engineering di Akamai. “Siamo entusiasti della rapida evoluzione che Databricks, insieme alla comunità in rapida crescita, sta apportando a Delta Lake. Non vediamo l’ora di collaborare con gli altri sviluppatori del progetto per portare la data community a risultati più grandi”.
“Delta Lake sta riscontrando una crescita e un’attività straordinarie, segno che la comunità degli sviluppatori desidera far parte di questo progetto. La presenza dei collaboratori è aumentata del 60% nell’ultimo anno, la crescita dei commit è del 95% e il numero medio di linee di codice per commit e’ aumentato del 900%. Stiamo assistendo a questa crescita esponenziale da parte di organizzazioni che collaborano a questo progetto come Uber Technologies, Walmart e CloudBees, tra le altre”, ha dichiarato Jum Zemlinali, Executive Director della Linux Foundation.
Con Mlflow 2.0 si introduce Mlflow pipelines per “templatizzare” e automatizzare MLOps
MLflow, uno dei progetti open source di machine learning (ML) di maggior successo, ha definito lo standard per le piattaforme di ML. Il lancio di MLflow 2.0 introduce MLflow Pipelines nella piattaforma, diminuendo sostanzialmente il tempo di produzione e migliorando l’esecuzione su scala grazie alla standardizzazione. MLflow Pipelines offre ai data scientist modelli predefiniti e predisposti alla produzione, in base al tipo di modello che stanno sviluppando, per consentire di eseguire il bootstrap in modo affidabile e accelerare lo sviluppo dei modelli evitando l’intervento dei production engineers.
Un motore di streaming di nuova generazione e Spark ovunque e in qualsiasi momento
Come motore principale e unificato per l’analisi dei dati su larga scala, Spark è in grado di gestire insiemi di dati di tutte le dimensioni. Tuttavia, la mancanza di connettività da remoto e il peso di applicazioni sviluppate ed eseguite sul driver node, ostacolano i requisiti delle moderne applicazioni di dati. Per risolvere questo problema, Databricks ha presentato Spark Connect, un’interfaccia client e server per Apache Spark basata sull’API DataFrame che separerà il client dal server per una migliore stabilità e consentirà una connettività da remoto integrata. Con Spark Connect, gli utenti potranno accedere a Spark da qualsiasi dispositivo.
In collaborazione con la Spark community, Databricks ha annunciato anche Project Lightspeed, il motore di streaming Spark di nuova generazione. Con la crescita della varietà di applicazioni che si orientano verso lo streaming dei dati, sono emersi nuovi requisiti per il supporto di carichi di lavoro di dati per il lakehouse e lo streaming dei dati. Spark Structured Streaming è stato largamente adottato fin dall’origine dello streaming grazie alla sua facilità d’uso, alle prestazioni, all’ampio ecosistema e alle comunità di sviluppatori. In quest’ottica, Databricks collaborerà con la comunità e incoraggerà la partecipazione a Project Lightspeed per migliorare le prestazioni, il supporto dell’ecosistema per i connettori, ottimizzare le funzionalità di elaborazione dei dati con nuovi operatori e API e semplificare la distribuzione, le operazioni, il monitoraggio e la risoluzione dei problemi.
Per saperne di più sull’impegno di Databricks nei confronti della comunità open source, visita il sito: https://databricks.com/product/open-source.
Databricks presenta le novità per la sua piattaforma di data lakehouse leader di settore
● Le funzionalità avanzate di data warehousing e data governance evidenziano il futuro del moderno data stack
● Databricks Marketplace e Data Cleanrooms accelerano la visione dell’azienda per la condivisione aperta e collaborativa dei dati
● Le nuove ottimizzazioni di data engineering consentono di eseguire automaticamente pipeline di dati in batch e streaming nel modo più efficiente in termini di costi.
● Miglioramenti lungo tutto il ciclo di vita del machine learning che semplificano notevolmente le operazioni di MLOps a livello produttivo
SAN FRANCISCO – 28 giugno 2022 – Databricks, Data e AI company pioniera del paradigma del data lakehouse, ha presentato oggi, in occasione dell’annuale Data + AI Summit di San Francisco, l’evoluzione della Databricks Lakehouse Platform. Le nuove caratteristiche comprendono migliori prestazioni e funzionalità di data warehousing della categoria, ampliamento della governance dei dati, innovazioni per la condivisione dei dati tra cui marketplace analytics e room data clean per una collaborazione sicura sui dati, ottimizzazione automatica dei costi per le attività ETL e miglioramenti del ciclo di vita del machine learning (ML).
“I nostri clienti vogliono disporre di business intelligence, AI e machine learning su un’unica piattaforma, dove già risiedono i propri dati. Ciò richiede le migliori funzionalità di data warehousing in grado di operare direttamente sul loro data lake. Facendo un’analisi comparativa con gli standard più elevati, abbiamo dimostrato più volte che Databricks Lakehouse Platform offre ai data team il meglio di entrambi i mondi su una piattaforma semplice, aperta e multi-cloud”, ha dichiarato Ali Ghodsi, Co-founder e CEO di Databricks. “Gli annunci di oggi rappresentano un significativo passo avanti nella nostra visione Lakehouse, dal momento che stiamo rendendo più veloce e più semplice che mai la massimizzazione del valore dei dati nelle aziende, sia internamente che esternamente.
Il miglior Data Warehouse è il Lakehouse
Aziende come Amgen, AT&T, Northwestern Mutual e Walgreens stanno adottando la tecnologia lakehouse per eseguire analisi su dati strutturati e non strutturati. Oggi Databricks ha presentato le nuove funzionalità di data warehousing della piattaforma per migliorare ulteriormente i workload analytics:
● Databricks SQL Serverless, disponibile in anteprima su AWS, offre un’elaborazione flessibile, veloce, sicura e completamente controllata per migliorare le prestazioni a un costo ridotto.
● Photon, il motore di query da record per i sistemi lakehouse sarà disponibile su Databricks Workspaces nelle prossime settimane, ampliando ulteriormente la portata di Photon sulla piattaforma. Nei due anni successivi all’annuncio, Photon ha elaborato exabyte di dati, eseguito miliardi di query e fornito un rapporto prezzo/prestazioni di riferimento fino a 12 volte migliore rispetto ai data warehouse cloud tradizionali.
● Connettori open source per Go, Node.js e Python ora rendono ancora più semplice l’accesso al lakehouse dalle applicazioni operative.
● Databricks SQL CLI consente a sviluppatori e analisti di eseguire query direttamente dal proprio computer locale.
● Databricks SQL offre ora query federation per interrogare fonti di dati remote, tra cui PostgreSQL, MySQL, AWS Redshift e molte altre, senza dover prima estrarre e caricare i dati dai sistemi di origine.
La governance dei dati diventa una priorità assoluta con le funzionalità avanzate di Unity Catalog
Unity Catalog disponibile su AWS e Azure nelle prossime settimane, offre una soluzione di governance centralizzata per tutti i dati e gli asset AI con ricerca e rilevamento integrati, lineage automatizzato per tutti i carichi di lavoro, prestazioni e scalabilità per il lakehouse su qualsiasi cloud. Inoltre, recentemente Databricks ha introdotto il data lineage per Unity Catalog, ampliando in modo significativo le capacità di governance dei dati sul lakehouse e offrendo alle aziende una visione completa dell’intero ciclo di vita dei dati. Grazie al data lineage, i clienti hanno la visibilità sulla provenienza dei dati nel proprio lakehouse, su chi li ha creati e quando, come sono stati modificati nel tempo, come vengono utilizzati nei carichi di lavoro di data warehousing e data science e molto altro ancora.
Maggiore condivisione dei dati grazie a Databricks Marketplace e Cleanrooms
Come primo marketplace per tutti i dati e AI, Databricks Marketplace, disponibile nei prossimi mesi, è un mercato aperto per confezionare e distribuire dati e analitycs. Superando i marketplace che offrono semplicemente set di dati, Databricks Marketplace consente ai data provider di gestire e vendere in modo sicuro una serie di asset come tabelle di dati, file, modelli di machine learning, notebook e dashboard analytics. I fruitori di dati possono facilmente scoprire nuovi dati e risorse di intelligenza artificiale, avviare le proprie analisi e ottenere più rapidamente approfondimenti e valore dai dati. Ad esempio, invece di acquisire l’accesso a un set di dati e investire il proprio tempo nello sviluppo e nella gestione di dashboard per la reportistica, possono scegliere di abbonarsi a dashboard preesistenti che forniscono le analisi necessarie. Databricks Marketplace è alimentato da Delta Sharing, che consente ai data provider di condividerli senza doverli spostare o copiare dal proprio storage cloud. In questo modo i provider possono offrire i dati ad altri cloud, strumenti e piattaforme da un’unica fonte.
Inoltre, Databricks sta aiutando i propri clienti a condividere e sfruttare i dati oltre i confini aziendali. Cleanrooms, disponibile nei prossimi mesi, consentirà di condividere e unire i dati tra le diverse aziende, in un ambiente sicuro e protetto, senza la necessità di replicare i dati. Nell’ambito di media e pubblicità, ad esempio, due aziende potrebbero voler capire la sovrapposizione del pubblico e la portata delle campagne. Le soluzioni di clean room esistenti presentano dei limiti, generalmente sono, infatti, circoscritte a strumenti SQL e comportano il rischio di duplicazione dei dati su più piattaforme. Grazie a Cleanrooms, le aziende possono collaborare facilmente con clienti e partner su qualsiasi cloud e avere la flessibilità necessaria di eseguire calcoli e carichi di lavoro complessi utilizzando sia strumenti SQL sia strumenti basati sul data science, tra cui Python, R e Scala con controlli coerenti sulla privacy dei dati.
MLflow 2.0 semplifica e accelera il machine learning su vasta scala
Databricks continua a essere all’avanguardia nell’innovazione MLOps con l’introduzione di MLflow 2.0. La realizzazione di una pipeline di machine learning richiede la creazione di un’infrastruttura, non solo la scrittura di codice. Questo può essere difficile per i nuovi utenti e noioso per chiunque operi su ampia scala. Grazie a MLflow 2.0, MLflow Pipelines ora gestisce i dettagli operativi per gli utenti. Invece di impostare l’orchestrazione dei notebook, gli utenti possono semplicemente definire gli elementi della pipeline in un file di configurazione e MLflow Pipelines ne gestisce automaticamente l’esecuzione. Oltre a MLflow, Databricks ha aggiunto anche Serverless Model Endpoints per supportare direttamente l’hosting dei modelli di produzione, nonché dashboard integrate di Model Monitoring per aiutare i team ad analizzare le prestazioni dei modelli nel mondo reale.
Delta Live Tables include il primo sistema di ottimizzazione delle prestazioni per le pipeline di Data Engineering
Delta Live Tables (DLT) è il primo framework ETL che utilizza un approccio semplice e esplicativo per costruire pipeline di dati affidabili. Dal suo lancio all’inizio di quest’anno, Databricks ha continuato ad aggiungere nuove funzionalità, tra cui l’introduzione di un nuovo livello di ottimizzazione delle prestazioni progettato per accelerare l’esecuzione e ridurre i costi dell’ETL. Inoltre, il nuovo Enhanced Autoscaling è stato concepito per scalare in modo intelligente le risorse in base alle fluttuazioni dei carichi di lavoro in streaming, mentre Change Data Capture (CDC) for Slowly Changing Dimensions – Type 2 tiene facilmente traccia di ogni cambiamento nei dati di origine sia per scopi di conformità che di sperimentazione di machine learning.
Per maggiori informazioni sulla Databricks Lakehouse Platform: https://databricks.com/product/data-lakehouse. Collegati virtualmente per seguire altri keynote del Data + AI Summit registrandoti qui.
Informazioni su Databricks
Databricks è la Data e AI Company. Più di 7.000 organizzazioni in tutto il mondo – tra cui Comcast, Condé Nast, H&M e oltre il 40% della Fortune 500 – si affidano alla piattaforma Databricks Lakehouse per unificare i loro dati, analisi e AI. Databricks ha sede a San Francisco, con uffici in tutto il mondo. Fondata dai creatori originali di Apache Spark™, Delta Lake e MLflow, Databricks ha la missione di aiutare i team di dati a risolvere i problemi più difficili del mondo. Per saperne di più, segui Databricks su Twitter, LinkedIn e Facebook.
Dichiarazione di Safe Harbor
Le presenti informazioni sono fornite per delineare l’orientamento generale dei prodotti Databricks e hanno scopo puramente informativo. I clienti che acquistano i servizi Databricks devono prendere le loro decisioni di acquisto basandosi esclusivamente sui servizi, le caratteristiche e le funzioni attualmente disponibili. Le caratteristiche o le funzionalità non rilasciate descritte nelle dichiarazioni previsionali sono soggette a modifiche a discrezione di Databricks e potrebbero non essere fornite come previsto o non essere fornite affatto.