← Retour au blog
IA

Risques IA : copyright et propriété intellectuelle du code généré

Quand un LLM génère du code, à qui appartient-il ? Peut-il reproduire du code sous licence protégée ? Ces questions ne sont pas théoriques — elles engagent la responsabilité de vos équipes.

Les outils de génération de code comme GitHub Copilot, Claude ou GPT-4 ont été entraînés sur des quantités massives de code public, incluant du code sous licences GPL, MIT, Apache, et des licences propriétaires. La question légale est devenue urgente : si un LLM reproduit un extrait de code sous licence GPL dans votre codebase commerciale, vous êtes en infraction. Et vous ne le saurez peut-être pas.

Des études ont montré que les LLMs peuvent reproduire des extraits de code mémorisés lors de l'entraînement, particulièrement pour du code très répandu (algorithmes de tri, snippets populaires). GitHub Copilot intègre un filtre de détection de code dupliqué qui signale les extraits trop similaires à du code indexé — activez-le. Mais ce filtre n'est pas infaillible et ne couvre pas tous les modèles.

La due diligence raisonnable aujourd'hui : utilisez des outils de détection de licence sur votre codebase (FOSSA, Black Duck, Licensee), auditez particulièrement le code généré par IA pour les parties critiques, et établissez une politique d'entreprise claire sur l'usage des outils IA. Certaines organisations interdisent Copilot sur le code propriétaire, d'autres l'acceptent avec un processus de review renforcé. L'absence de politique est elle-même un risque légal.

  • Activez le filtre de détection de code dupliqué dans Copilot
  • Scannez votre codebase avec FOSSA ou équivalent
  • Établissez une politique d'entreprise sur l'usage des outils IA
  • Soyez particulièrement vigilant sur le code algorithmique complexe

Vous avez un projet en tête ?

Parlons de vos enjeux et voyons comment Gotan peut vous accompagner.

Contactez-nous