🦆 DuckDB : Le couteau suisse de l’analytique embarquée !

par Christophe Jourdan | Nov 28, 2025 | Script, Uncategorized | 0 commentaires

Vous en avez assez de jongler avec des bases de données lourdes ou de devoir charger vos données dans un entrepôt distant pour la moindre analyse ? Il est temps de découvrir DuckDB, la base de données analytique embarquée qui révolutionne la manière dont les data scientists et les analystes travaillent avec leurs données locales.

Qu’est-ce que DuckDB ?

DuckDB n’est pas une base de données transactionnelle (comme PostgreSQL ou MySQL), mais une base de données orientée colonne (OLAP) conçue spécifiquement pour l’analyse et l’exécution rapide de requêtes complexes (agrégations, jointures, etc.).

Sa particularité majeure est d’être embarquée et sans serveur (serverless). Cela signifie :

Elle fonctionne dans le même processus que votre application (Python, R, Node.js, etc.).
Elle ne nécessite aucune installation, configuration ou gestion de serveur.
Elle peut lire les données directement à partir de fichiers locaux (CSV, Parquet, JSON) sans les importer au préalable.

🚀 L’intérêt majeur : La Vitesse et la Simplicité

⚡ Vitesse d’exécution : Grâce à son architecture orientée colonne et ses optimisations (vectorisation, compilation just-in-time), DuckDB est souvent plus rapide pour les requêtes analytiques que de nombreux outils traditionnels, y compris pour des jeux de données de plusieurs gigaoctets.
🔧 Simplicité d’utilisation : Elle utilise le standard SQL que vous connaissez, tout en étant incroyablement facile à intégrer.
🔗 Zéro ETL (Extract, Transform, Load) : C’est un Data Lakehouse dans une boîte ! Vous pouvez requêter directement des fichiers Parquet ou CSV stockés sur votre disque ou dans le cloud, ce qui élimine la phase fastidieuse de chargement.

🛠️ Exemples d’utilisation concrets avec Python

L’intégration la plus populaire de DuckDB se fait via sa librairie Python.

1. Interroger directement des fichiers (Zero ETL)

Imaginez que vous ayez un gros fichier Parquet nommé ventes_2024.parquet.

Python

import duckdb

# Requête SQL directement sur le fichier Parquet, sans l'importer !
resultat = duckdb.sql("""
    SELECT 
        region, 
        SUM(montant) AS total_ventes
    FROM 
        'ventes_2024.parquet' 
    WHERE 
        date >= '2024-06-01'
    GROUP BY 
        region
    ORDER BY 
        total_ventes DESC;
""")

print(resultat.df())

L’avantage ici est la rapidité : DuckDB ne lira que les colonnes (region, montant, date) et les lignes nécessaires pour la période spécifiée, optimisant l’accès au disque.

2. Remplacer Pandas pour les grandes agrégations

Lorsque votre DataFrame Pandas devient trop volumineux pour la mémoire (ou que les calculs deviennent lents), DuckDB peut prendre le relais sans changer votre flux de travail.

Python

import pandas as pd
import duckdb

# Création d'un DataFrame (peut être très grand)
data_df = pd.DataFrame({
    'cat': ['A', 'B', 'A', 'C', 'B'],
    'val': [10, 20, 15, 50, 30]
})

# Utiliser le DataFrame Pandas directement dans une requête SQL
resultat_sql = duckdb.sql("""
    SELECT 
        cat, 
        AVG(val) 
    FROM 
        data_df 
    GROUP BY 
        cat
""").df()

print(resultat_sql)
#   cat  avg(val)
# 0   A      12.5
# 1   B      25.0
# 2   C      50.0

DuckDB exécute la requête SQL très efficacement sur le DataFrame en mémoire, offrant une alternative rapide et familière à des opérations group by complexes en Pandas.

💡 Conclusion

DuckDB est l’outil parfait pour l’analyse interactive et les flux de travail de prototypage de données. Si vous travaillez régulièrement avec des ensembles de données de taille moyenne à grande (de quelques Mo à plusieurs Go) et que vous avez besoin de la puissance du SQL sans la complexité d’un SGBD serveur, DuckDB est fait pour vous. C’est un véritable « SQLite pour l’analytique » qui mérite sa place dans la boîte à outils de tout professionnel des données !

🦆 DuckDB : Le couteau suisse de l’analytique embarquée !

Qu’est-ce que DuckDB ?

🚀 L’intérêt majeur : La Vitesse et la Simplicité

🛠️ Exemples d’utilisation concrets avec Python

1. Interroger directement des fichiers (Zero ETL)

2. Remplacer Pandas pour les grandes agrégations

💡 Conclusion

0 commentaires

Soumettre un commentaire Annuler la réponse

Derniers articles

Connexion d’une machine Linux à Active Directory avec SSSD

Secure Boot Certificates Power BI Dashboard : guide de déploiement avec Configuration Manager

Script Powershell pour auditer les comptes desactivés, expirés ou proche de l’expiration

PoshTorch : module Powershell pour exporter des métriques Prometheus

AutoPilot: Post ESP – Installation des applications Win32 sous Intune

Catégories

Archives

Auteurs/Autrices