← Retour au catalogue

Solo Épisode #5 • 39:45 • 1 juin 2025

Création d'un logiciel de transcription en Python

Alexis tente d'améliorer son outil de transcription Python existant en ajoutant l'enregistrement de la sortie système audio, mais rencontre des difficultés techniques liées à Linux et PulseAudio.

Stack technique

Outils utilisés

Résumé de la session

Alexis a commencé par présenter son outil de transcription vocale qu'il avait créé il y a un an avec le vibe coding. Cet outil permet d'enregistrer sa voix via un raccourci clavier (Ctrl+Alt+Q), de la transcrire avec l'API OpenAI GPT-4 Transcribe, et de mettre le résultat dans le presse-papier.
Il a ensuite voulu étendre cet outil pour pouvoir enregistrer non seulement son micro mais aussi la sortie audio de son ordinateur (comme lors de réunions), inspiré par une fonctionnalité de Notion. Il a ouvert son projet existant dans Windsurf et a demandé à l'agent Cascade d'analyser la faisabilité d'ajouter cette fonctionnalité.
L'IA a proposé d'utiliser PulseAudio sur Linux avec un paramètre -b pour activer l'enregistrement mixte. Cependant, Alexis a rencontré plusieurs obstacles techniques : problèmes de détection des périphériques audio système, difficultés avec PulseAudio Utils, erreurs de mixage audio, et finalement l'IA a commencé à partir en boucle infernale avec des corrections successives qui ont corrompu le code.
Malgré plusieurs tentatives de debugging et de rollbacks dans Windsurf, Alexis n'a pas réussi à faire fonctionner l'enregistrement de la sortie système. Les tests finaux montraient que seul le micro était enregistré, pas l'audio YouTube qu'il tentait de capturer. La session s'est terminée avec des problèmes d'API surchargée chez Anthropic.