## Anciens séminaires organisés par l'unité

### 2022

• Lundi 13 juin 2022 - - Salle de réunion 142, bâtiment 210
Ana Bulović
(Theoretical Biophysics Group, Humboldt University, Berlin)
Modelling of stress and growth in E. coli

Bacterial hosts, and Escherichia coli in particular, are used extensively for the production of industrial recombinant protein. The stress induced in the cells by this procedure is systemic - it introduces radical changes in the finely tuned system of mRNA and protein expression. Due to the complex and interwoven nature of the bacterial cell, it is no simple thing to understand the type and extent of these changes. This thesis deals with the problem of understanding and modeling such stress conditions, in which the entire cellular state is grossly affected.
I have attempted to tackle this problem in a number of ways. I first model and analyze the regulatory mechanisms involved in the cellular response to the stress provoked by recombinant protein expression, and show that, despite its apparent complexity, it has some unexpected and "simple" properties. Afterwards I shift the emphasis from regulation to cellular investment of resources. Since bioproduction is resource-wise very costly, it is reasonable to expect that many stress effects are due to the shifts in resource investment brought on by the genetic modification of the bacterium. For this purpose, I develop and calibrate a steady-state whole-cell model of E. coli. It is implemented in Resource Balance Analysis, a modeling framework able to realistically represent the cost of cellular events and account for a number of constraints under which cells operate - those of energy, efficiency and space - which lead to resource-related cellular decisions. This models shows good predictive power and because of its scope, level of detail and ease of manipulation, it can be used to assist experimental design in bioproduction. Lastly, I create a model whose purpose is to test whether the regulation of the bioproduction-induced stress responses can be explained by the tendency of the cell to implement resource strategies optimal for growth. For this purpose, I develop a simple time-resolved model of the heat shock response which takes into account the cellular constraints of energy, efficiency and space. I show that the obtained response to stress under the assumption of parsimonious resource allocation closely resembles one determined by experiment. The conclusions drawn from the three modeling approaches show that integrating the idea of resource allocation into cell models can help shed light on many regulatory events and adaptations taking place during bioproduction, and the tools developed in this thesis can help optimize the process of recombinant protein expression in Escherichia coli.

• Lundi 30 mai 2022 - - Salle de réunion 142, bâtiment 210
Wolfram Liebermeister
(BioSys)
Enzyme economy in metabolic networks

I study kinetic metabolic models under an "economical" aspect, i.e., assuming an optimisation of enzyme levels. To characterise optimal metabolic states, I introduce economic potentials, dual variables that quantify the "usefulness"  of individual metabolites. In optimal states, the potential differences, multiplied by the flux, must be balanced by positive enzyme costs; accordingly, the potentials tend to increase along pathways. This postulate can be employed as a constraint in flux modelling, in order to exclude futile flux cycles and other flux patterns that are incompatible with an optimal allocation of enzyme. The new economic constraints on fluxes resemble well-known thermodynamic constraints, and methods from thermodynamic flux analysis can be reused to characterise optimal metabolic states.

• Lundi 2 mai 2022 - - Salle de réunion 142, bâtiment 210
TBA
(TBA)
TBA
• Lundi 4 avril 2022 - - Salle de réunion 142, bâtiment 210
Andrea De Martino
(Politecnico di Torino)
Inverse modeling metabolic networks

I will describe our attempts to construct generative models of cellular metabolic fluxes through statistical inference from empirical data. I will try to clarify the technical difficulties to be overcome and motivate why this approach is worth the effort. Concerning results, I mostly focus on (i) dynamical views of phenotypic diversity, (ii) the existence of a testable hard bound relating fitness to (inferred) heterogeneity, and (iii) the possibility to identify an `objective function’ of metabolic activity. If time permits, I will finally present some preliminary results where inverse modeling is applied to the reconstruction of inter-cellular interactions in populations of cancer cells.

• Lundi 21 mars 2022 - - Salle de réunion 142, bâtiment 210
Markus Arthur Köbis
(Université norvégienne de sciences et de technologie -- NTNU)
Time-optimal adaptation in dynamic resource allocation models

At first, we introduce a unifying mathematical framework for many existing constraint-based approaches within systems biology and exemplify how it captures established resource allocation-type methods like resource balance analysis and dynamic enzyme-cost FBA. We then introduce time-optimal adaptation (TOA), a constraint-based modeling approach where the objective lies in reaching a pre-defined goal-state in as short time as possible. Mathematically, TOA falls into the problem class of time-optimal control problems. After shortly discussing some numerical details, TOA will be illustrated using a coarse-grained self-replicator model where we show that TOA can explain phenomena such as storage accumulation in microbes without taking competition and/or time-varying environments into account. The talk is based on a joint work with Alexander Bockmayr (TU Berlin) and Ralf Steuer (HU Berlin).

• Lundi 7 mars 2022 - - Salle de réunion 142, bâtiment 210
Benjamin Heuclin
Priors continus de sélection de composantes de la variance dans les modèles linéaires mixtes : application à la cartographie génétique

L'identification des facteurs aléatoires à inclure dans un modèle mixte linéaire est cruciale pour modéliser les structures de dépendance tout en évitant le sur-ajustement.  Alors que de nombreuses approches ont déjà été proposées pour la sélection de l'effet fixe, peu de travaux portent sur l'identification des composantes de variance non nulles. Cette tâche est plus difficile en raison des problèmes de bord découlant des contraintes dû aux matrices de variance-covariance définies positives. Dans le contexte bayésien, nous proposons d’étendre le prior horseshoe pour la sélection de composantes de la variance en présentant une version pliée (folded) de ce prior. Nous comparons les performances de ce prior à celles d’autres priors déjà étudiés dans ce contexte. Cette analyse est réalisée au travers de deux applications génétiques. La première est tournée sur l’identification de QTL à l’aide de matrices d’apparentement (IBD-QTL mapping), au travers d’un modèle "animal" chez le Palmier à huile. La seconde, de type cas d’école, s’intéresse à l’évolution au cours du temps de l’architecture génétique de la compacité des feuilles de l’espèce Arabidopsis thaliana, au travers d’un modèle à intercept et pentes aléatoires. Le temps est considéré comme un facteur groupant aléatoire.

• Lundi 21 février 2022 - - Salle de réunion 142, bâtiment 210
Andrea Weisse
(University of Edinburgh)
Stochasticity of cellular growth: sources, propagation and consequences

Cellular growth impacts a range of phenotypic responses. Identifying the sources of fluctuations in growth and how they propagate across the cellular machinery can unravel mechanisms that underpin cell decisions. In this talk, I will present a stochastic cell model linking gene expression, metabolism and replication to predict growth dynamics in single bacterial cells. In addition to several population-averaged data, the model quantitatively recovers how growth fluctuations in single cells change across nutrient conditions. We also developed a theoretical framework to analyse stochastic chemical reactions coupled with cell divisions, and used it to identify sources of growth heterogeneity. By visualising cross-correlations we then determined how initial fluctuations propagate to growth rate and affect other cell processes. Finally, we study antibiotic responses and find that complex drug-nutrient interactions can both enhance and suppress heterogeneity. Our results provide a predictive framework to integrate single-cell and bulk data and draw testable predictions with implications for antibiotic tolerance, evolutionary biology and synthetic biology.

• Lundi 7 février 2022 - - Salle de réunion 142, bâtiment 210
Achille Thin
(CMAP, Ecole Polytechnique)
Monte Carlo Variational Auto Encoders

Variational auto-encoders (VAE) are popular deep latent variable generative models which are trained by maximizing an Evidence Lower Bound (ELBO). To obtain tighter ELBO and hence better variational approximations, it has been proposed to use importance sampling to get a lower variance estimate of the evidence. While it has been suggested many times in the literature to use more sophisticated algorithms such as Annealed Importance Sampling (AIS) and its Sequential Importance Sampling (SIS) extensions, the potential benefits brought by these advanced techniques have never been realized for VAE.Taking inspiration from the MCMC and the normalizing flows literature, we present here the Monte Carlo Variational Auto Encoder which is based on a novel representation of Markov kernels.

• Lundi 24 janvier 2022 - - Salle de réunion 142, bâtiment 210
Liu-Di Lu
(Université de Genève)
Some modelling and optimization problems for microalgal raceway ponds

Microalgae are photosynthetic microorganisms whose potential has been highlighted in the last decade, especially for food, renewable energy and wastewater treatment. Nevertheless, finding optimal growth conditions for full-scale outdoor cultivation of microalgae remains challenging in practice. Mathematical models are therefore of great help to better manage this complex and dynamical system. The aim of this talk is to better understand how different factors such as the shape of topography and distribution of the light resource affect microalgae growth in raceway ponds. In this way, I will first show how the shape of the topography affects (or not) the algal growth. I will present a model which coupling the hydrodynamical movement with the photosynthesis system, then using this coupled model I will present the optimization problem associated with the topography to maximize the algal growth rate. The next part of the talk will then focus on a combination of the topography with a mixing device (such as paddle wheel) to investigate how they affects the algal growth. I will show the possible optimal mixing strategies along with the optimal shape of the topographies. Finally, I will end this talk with some numerical experiments and some perspectives of this work.

• Lundi 10 janvier 2022 - - Salle de réunion 142, bâtiment 210
(University of Oxford)
A Theoretical Study of Variational Inference

Bayesian inference provides an attractive learning framework to analyze and to sequentially update knowledge on streaming data, but is rarely computationally feasible in practice. In the recent years, variational inference (VI) has become more and more popular for approximating intractable posterior distributions in Bayesian statistics and machine learning. Nevertheless, despite promising results in real-life applications, only little attention has been put in the literature towards the theoretical properties of VI. In this talk, we aim to present some recent advances in theory of VI. We will show that VI is consistent under mild conditions and retains the same properties than exact Bayesian inference. We will finally illustrate these results with PAC-Bayes bounds in sparse deep learning.

### 2021

• Lundi 13 décembre 2021 - - Salle de réunion 142, bâtiment 210
Perrine Lacroix
(LMO, Université Paris-Saclay)
Compromis entre risque prédictif et false discovery rate pour la régression linéaire gaussienne en grande dimension.

En régression linéaire gaussienne, l’estimation du paramètre inconnu permet de déterminer l’ensemble des variables impliquées dans l’explication de la variable réponse au sens de la relation linéaire. Elles correspondent aux coefficients non-nuls du paramètre inconnu. Dans un soucis d’exploitation et d’interprétation du résultat de l’estimation, il est préférable de n’avoir qu’un petit nombre de variables sélectionnées. Une approche classique pour ce modèle est la sélection de variables par minimisation des moindres carrés pénalisés. Pour obtenir une inégalité oracle sur le risque prédictif, la théorie développée par (Birgé et Massart, 2001) fournit une fonction de pénalité connue à une constante multiplicative près. Cette constante est actuellement fixée à 2 via des considérations d’optimalité asymptotique sur le risque.

Dans cet exposé, je définirai la notion de variables actives et inactives et j’expliquerai que la prédiction n’est pas suffisante pour limiter la sélection de variables inactives. Pour pallier ce problème, notre idée a été de rajouter un contrôle du false discovery rate (FDR) sur la procédure de sélection de modèle. Notre approche consiste à modifier la constante multiplicative et d’étudier l’impact de cette variation sur le FDR en plus du risque prédictif, ceci d’un point de vue théorique (sous un modèle très simplifié) et expérimental.

• Lundi 29 novembre 2021 - - Salle de réunion 142, bâtiment 210
Claudia Berloco
(Intesa Sanpaolo (ex University of Turin))
Complex networks, machine learning and Bayesian spatial and spatio-temporal approaches to credit risk propagation on a dynamic network of commercial relationships

After the financial crisis of 2008, anticipating firms' default has garnered increased attention from the scientific community. In this talk, we focus on the interdependence of firms to study the propagation of default among firms belonging to the same supply chain. The propagation may be seen as a contagion among nodes of a complex network or a disease diffusion among adjacent regions on a map. Thus, we explore several techniques belonging to a wide range of research fields: machine learning, complex network analysis used in information theory and Bayesian spatial and spatio-temporal models used in epidemiology and medicine (e.g. fMRI). We apply these approaches on a proprietary dataset of an Italian commercial Bank that records historical defaults, trend features and commercial relationships among firms. We present findings both in terms of knowledge of the process and in terms of model performance improvement with respect to available benchmarks.

• Lundi 15 novembre 2021 - - Salle de réunion 142, bâtiment 210
David Lacoste
(ESPCI - CNRS, Laboratoire Gulliver)
From gambling to growing in uncertain environments

In unpredictably varying environments, it is advantageous for individuals to accept a reduction of their short-term reproductive success in exchange for longer-term risk reduction. This phenomenon called bet-hedging, protects individuals from potential damages associated with environment variations. It is universally present in biology for instance in bacteria resistance to antibiotics, in plants delaying germination or in virus evolution. The idea of bet-hedging is perhaps best illustrated using Kelly's model, originally introduced in the context of gambling models such as horse races. The gambler strives to optimize his/her capital growth by placing appropriate bets while the biological population strives to optimize its growth rate. In both cases, optimal strategies correspond to a maximization of the mean fitness/growth rate while minimizing the variance. Here, we revisit Kelly's model, by including a penalization due to risky fluctuations. We find an analog of a phase transition with a coexistence between two optimal strategies, where one has risk and the other one does not; and a general inequality describing a trade-off between the average growth and the risk taken by the gambler [1].
We will discuss possible applications of these ideas for modeling  strategies used by biological systems to cope with uncertain environments.

Reference: L. Dinis et al., Phase transitions in optimal betting strategies, EPL 131, 60005 (2020).

• Lundi 18 octobre 2021 - - Salle de réunion 142, bâtiment 210
Mathieu Mezache
(INRAE MaIAGE)
Modélisation de processus biologiques par des équations de populations structurées : deux exemples

Deux exemples de modélisation de processus biologiques seront présentés au cours de cet exposé : un modèle décrivant les phénomènes cinétiques oscillatoires lors de la dépolymérisation de fibres amyloïdes de Prions et un modèle de croissance des cellules cancéreuses du pancréas couplé à un modèle de croissance axonale. On s'intéressera plus particulièrement au comportement asymptotique de ces modèles dans leur formalisme discret (système dynamique) ainsi que dans leur formalisme continu (EDP).

• Lundi 04 octobre 2021 - - Salle de réunion 142, bâtiment 210
Anne-Marie Wehenkel
(Institut Pasteur, Laboratoire Microbiologie Structurale)
Early divisome assembly in Corynebacteriales: a mechanistic microbiology approach

Bacterial cell division is a temporally and spatially regulated process coordinated by a multi-protein complex called the divisome. The assembly of the divisome is initiated and organized by a highly conserved bacterial protein, the bacterial tubulin homologue FtsZ, which polymerizes to form a dynamic ring structure (Z-ring) that marks the site of cell division. Following ring assembly, FtsZ recruits structural and accessory proteins in an ordered manner to form the functional cell division machinery and to build a new cell wall. The precise molecular mechanisms by which the assembly and regulation of the bacterial cell division machinery is achieved remains elusive, even in extensively studied model organisms such as Escherichia coli, Bacillus subtilis or Caulobacter crescentus. While genetic and biochemical techniques have identified many interactions amongst cell division proteins, the overall structure and dynamics of the divisome as a (large) multi-protein complex are still completely unknown. Furthermore, although the general scheme for divisome assembly and function seems to be widely conserved in bacteria, important species-specific differences exist – most likely to satisfy different cell morphologies, growth modes and cell wall composition. This is particularly true in Corynebacteriales, the suborder of Actinobacteria including important human pathogens such as Mycobacterium tuberculosis, Mycobacterium leprae and Corynebacterium diphtheriae. Corynebacteriales are Gram +ve diderm bacteria with a complex cell wall and a polar elongation mode. In this large phylum, many of the well characterized divisome regulators are missing from the genomes. Here I will present early divisome assembly mechanisms centred around SepF, the membrane anchor for FtsZ, and the only cell division-associated protein from Actinobacteria known to directly interact with the conserved C-terminal tail of FtsZ. I will also describe recent attempts to look for missing divisome members using mass-spec based interactomics.

• Lundi 20 septembre 2021 - - Salle de réunion 142, bâtiment 210
(Leibniz Institute of Plant Genetics and Crop Plant Research, Gatersleben, Allemagne)
Crassulacean Acid Metabolism emerges in a leaf metabolic model under water-saving constraints in different environments

CAM photosynthesis is a water-saving mode of C-fixation and its implementation into a C3 crop plant is a promising engineering target as all enzymes involved in the CAM cycle are present in C3 plants and some facultative CAM species can switch from C3 to CAM photosynthesis. In this presentation, I ask the question: what are the metabolic and morphological limitations to implementing CAM or CAM-like mechanisms in a C3 leaf in different environments? This question is tackled by employing a time-resolved, large-scale metabolic leaf model which is coupled to a gas-exchange model. The model thereby takes into account the two main determinants of water-loss through the stomata - temperature and relative humidity and is used to investigate emergent flux modes when water-saving constraints are applied in addition to high productivity. I will highlight three main findings, relating to leaf anatomy, enzyme activity and the impact of the environment.

• Lundi 06 septembre 2021 - - Salle de réunion 142, bâtiment 210
Gersende Fort
(Institut de Mathématiques de Toulouse - IMT)
Variance reduced Expectation Maximization algorithm for finite sum optimization

The Expectation Maximization (EM) algorithm is of key importance for inference in latent variable models including mixture of regressors and experts, missing observations. Unfortunately, its computational cost is prohibitive in the large scale learning setting.

In this talk, we will introduce a novel EM algorithm, called SPIDER-EM, for inference from a large training set and designed for the so-called "finite sum" setting.

We will first show how this algorithm uses Variance Reduction techniques based on control variates, within a Stochastic Approximation scheme in order to provide an estimator of the E-step. We will also outline a parallel with a variance reduced preconditioned stochastic gradient algorithm.

Then, we will derive finite-time complexity bounds for smooth non-convex likelihood: we will discuss how some design parameters scale as a function of the number of examples and of the accuracy level, in order to control the convergence to an epsilon-approximate stationary point. Based on this criterion, SPIDER-EM improves over the state-of-the-art algorithms.

Numerical results will support our findings.

This is a joint work with Eric Moulines (CMAP, Ecole Polytechnique) and Hoi-To Wai (Chinese Univ. of Hong-Kong).

• Lundi 14 juin 2021 - - Salle de réunion 142, bâtiment 210
Juergen Zanghellini
(University of Vienna)
Identification of metabolic pairs allow for a reliable and quantitative analysis of the finger sweat metabolome

Typically, clinical metabolome analysis is performed on blood samples. However, drawing blood is not only a cumbersome procedure for patients but requires qualified personnel which impairs measurement during real-life settings. A promising alternative is the analysis of the metabolome from finger sweat where sampling is as simple as holding filter paper between fingertips. High-resolution orbitrap MS/MS hyphenated with UHPLC then enabled metabolomic phenotyping from minute amounts of the collected sweat. This method drastically simplifies sampling at short intervals which is valuable for time-course studies.

However, a major obstacle to finger sweat analysis is the inability to control or measure the amount of sweat produced by the sweat glands at any given time. Even conservative estimates put the variability of the sweat flux on fingertips between 0.05 and 0.62 mg cm^(-2) min^(-1), depending on multiple endo- and exogenous factors. Not addressing this problem prevents a reliable quantification of metabolites in finger sweat. Here we present a computational method based on the identification of metabolic pairs in the sweat metabolome that allows us to quantify sweat volumes and enables an individualized, accurate quantitative finger sweat analysis for clinical applications.

In a proof-of-principal application, we use short interval sampling of sweat from fingertips to monitor the dynamic response of 43 individuals after caffeine consumption. We not only identified corresponding xenobiotics but extracted individualized kinetic parameters of caffeine metabolites from sweat and show the long-time stability of these parameters. Moreover, based on the computationally recovered sweat volumes we identified marker metabolites that are correlated to the sweat volume, which in turn allows us to predict sweat volumes of future metabolome measurements.

In conclusion, this work highlights the feasibility of individualized and reliable biomonitoring using sweat samples from fingertips which may have far-reaching implications for personalized medical diagnostics and biomarker discovery.

• Lundi 31 mai 2021 - - Salle de réunion 142, bâtiment 210
Joon Kwon
(INRAE, AgroParisTech, MIA Paris)
Unifying mirror descent and dual averaging

We introduce and analyse a new family of algorithms which generalizes and unifies both the mirror descent and the dual averaging algorithms. In the framework of this family, we define a new algorithm for constrained optimization with the aim of combining the advantages of mirror descent and dual averaging. In practice, this new algorithm converges as fast as mirror descent and dual averaging, and in some situations greatly outperforms them. Besides, we demonstrate how our algorithms can also be applied to solving variational inequalities.

This is joint work with Anatoli Juditsky and Eric Moulines.

• Lundi 10 mai 2021 - - Salle de réunion 142, bâtiment 210
Niccolò Campus
(Université de Turin)
On the prediction of replicability of social science experiments

In recent years there has been much debate about common statistical practices in many fields (medicine, biology, genomics, psychology, economics) and about the spread of false positive findings in the scientific literature. Several large-scale replication projects (OSC 2015, Camerer et al. 2016, 2018 and others) obtained poor replication rates (as little as 36%) and weaker effects. Existing attempts at predicting replicability of experimental claims all rely on ‘black-box’ machine learning techniques (Altmejd et al. 2019, Yang, Youyou and Uzzi 2020). We design a general framework to predict experiment outcomes (statistical significance and effect size) based on Specification Curve Analysis (Simonsohn, Simmons and Nelson 2015) and propose new estimators of replicability derived from meta-analysis and Bayesian Model Averaging. These estimators should better capture the ‘inner workings’ of any given study and therefore have higher explicative and predictive power than ML/NLP algorithms. We will test the predictive performance of our estimators on a large population of experimental studies drawing upon the aforementioned large-scale high-powered replications.

• Lundi 26 avril 2021 - - Salle de réunion 142, bâtiment 210
Fabien Raphel
(INRIA Paris, Equipe COMMEDIA)
Mathematical modeling and learning in safety pharmacology applications

Safety pharmacology is an essential process to study new molecules.
It tooks part in the early phases (in vitro) of the cycle life of a possible futur drug.
Currently, patch clamp is the reference technique to study the impact of a molecule on the electrical activity of cardiac cells. It is however slow and expensive. A recent device (MEA) allows a fast screening of molecules on cardiac tissues. These new electrical signals are nevertheless poorly understood. Our studies focus on three main points:
- The simulation of the MEA signals to enrich an experimental database.
- The development of a goal oriented dimension reduction method based on a classification score.
- The construction of a training set based on a classification score.
We will particularly focus on these first two points and some classification applications.

• Lundi 12 avril 2021 - - Salle de réunion 142, bâtiment 210
TBA
TBA
• Lundi 29 mars 2021 - - Salle de réunion 142, bâtiment 210
Olivier le Maitre
(École Polytechnique, CMAP)
Variance Decomposition Methods for Stochastic Systems and Simulators
Stochastic models are used in many scientific fields, including mechanics, physics, life sciences, queues and social-network studies, chemistry. Stochastic modeling is necessary when deterministic evolutions cannot correctly represent the dynamics because of unresolved small-scale fluctuations or significant inherent noise. Stochastic models are usually not perfectly known and involve some parameters that should be considered uncertain. It is then critical to assess the uncertain parameters' impact on the model predictions. This assessment usually relies on sensitivity analyses (SA), which characterize changes in the model output when the uncertain parameters vary. For stochastic models, the SA classically focuses on the prediction's statistical moments and their (local) derivatives with the uncertain parameters.
This presentation introduces a global approach to SA in stochastic systems, relying on variance decomposition methods (ANOVA, Sobol indices). Compared to other methods, our SA is global, concerning both the parameters and stochasticity, owing to a decomposition of the variance into stochastic, parametric, and mixed contributions.
This talk will detail two approaches depending on the nature of the stochastic models. First, I will focus on Stochastic Differential Equations (SDE) models involving uncertain parameters. In this case, one can exploit possible smooth dependencies on the parameters to perform spectral expansions through Galerkin or non-intrusive strategies. Second, we consider stochastic simulators governed by a set of reaction channels. In this case, we identify the individual reaction channel dynamics as an independent source of stochasticity and propose an approach to estimate their respective contribution to the variance. With this decomposition scheme, the case of uncertain rate parameters will be finally considered.
• Lundi 15 mars 2021 - - Salle de réunion 142, bâtiment 210
TBA
TBA
• Lundi 01 mars 2021 - - Salle de réunion 142, bâtiment 210
Stefan Müller
(University of Vienna)
Elementary vectors for kinetic and constraint-based models of cellular growth

Elementary vectors are fundamental objects in polyhedral geometry. In metabolic pathway analysis, elementary vectors rangefrom elementary flux modes (of the flux cone) and elementary flux vectors (of a flux polyhedron) via elementary conversion modes (of the conversion cone) to minimal cut sets (elementary vectors of a dual cone) in computational strain design.

Given the mixed audience of the seminar, I first introduce standard models of metabolism and related optimization problems (for growth or production rate). Most importantly, all feasible solutions (optimal or suboptimal) can be written as conformal sums of elementary vectors (sums without cancellations). In fact, for certain problems, optimal solutions are elementary vectors themselves.

In my latest work, I introduce new classes of elementary vectors for more refined models of cellular growth, where individual synthesis reactions for macromolecules replace the traditional ''biomass reaction’’. For general growth models (kinetic or constraint-based), I define elementary growth modes, for constraint-based models (aka RBA models), I further define elementary growth vectors, and I present the corresponding conformal sum theorems. Finally, I illustrate definitions and results in examples of minimal networks.
• Lundi 15 février 2021 - - Salle de réunion 142, bâtiment 210
Vincent Brault
(Université Grenoble Alpes - CNRS - Grenoble INP, Laboratoire Jean Kuntzmann)
Utilisation du pooling pour les tests RT-qPCR

L'une des problématiques de la pandémie actuelle de COVID-19 est la nécessité de pouvoir tester le plus largement possible les populations afin de mieux détecter la propagation et l'évolution. Toutefois, des problèmes techniques ont été mis en avant comme la tension sur la disponibilité des réactifs. Pour limiter ce problème, les méthodes de pooling (mélange de plusieurs échantillons avant de faire le test) sont régulièrement considérées en RT-qPCR (voir par exemple Gollier et Gossner (2020)).

Dans cet exposé, nous commencerons par expliquer en quoi consiste un test RT-qPCR et ce que cela implique sur les faux positifs et négatifs. Nous verrons ensuite le principe du pooling et comment cette procédure influence les résultats sur le taux de faux négatifs~; nous verrons en particulier l'importance de connaître la distribution de la concentration en charge virale. Nous continuerons donc sur la difficulté d'estimer cette concentration et nous conclurons par quelques procédures qui pourraient être appliquées pour aider en cette période de crise.

• Lundi 01 février 2021 - - Salle de réunion 142, bâtiment 210
Axel Cournac
(Institut Pasteur, Laboratoire Régulation Spatiale des Génomes)
Computer vision of chromosome contact maps

Chromosomes of all species studied so far display a variety of higher-order organisational features, such as self-interacting domains or loops. These structures, which are often associated to biological functions, form distinct, visible patterns on genome-wide contact maps generated by chromosome conformation capture approaches such as Hi-C. In this seminar, I will present Chromosight, an algorithm inspired from computer vision that can detect and quantify any patterns in contact maps. I will show different applications in data from different protocols and from various organisms including bacteria, yeast, mammals and virus.

In a second part, I will present an ongoing project which consists of the development of an algorithm capable of reconstructing currently invisible parts in contact maps using statistical inference methods or machine learning. This method could thus reveal the contacts of several hardly accessible genomic objects such as transposons, superintegrons and or any type of repeated sequence present within a chromosome contact map.

• Lundi 18 janvier 2021 - - Salle de réunion 142, bâtiment 210
Bernard Cazelles
(Ecole Normale Supérieure, Sorbonne Université)
Accounting for non-stationarity in epidemiological models: It could prove very useful for dealing with a potential pandemic…

The spread of disease through human populations is a complex phenomenon. The characteristics of disease propagation evolve with time, as a result of a multitude of environmental and anthropic factors. This non-stationarity is a key factor in this huge complexity. In the absence of appropriate external data sources, to correctly describe the disease propagation, we have proposed a flexible approach, based on stochastic models for the disease dynamics, and on diffusion processes for the parameter dynamics. Coupled with particle MCMC, this approach allows us to reconstruct the time evolution of some key parameters. Thus, by capturing the time-varying nature of the different mechanisms involved in disease propagation, the epidemic can be suitably described.

This framework could be particularly useful for dealing with a potential pandemic which would have characteristics that do not allow effective understanding of its propagation, for instance: silent transmission and/or a major time variation in the reporting of cases. The latter could occur due to lack of timely or appropriate testing, Public Health interventions and/or modification of human behavior during the epidemic. This original framework would enable us to reconstruct the time evolution of the transmission rate of the pathogen based purely on the available data without specific hypothesis on its evolution. Then we would follow both the course of this epidemic and the time evolution of its effective reproduction number. The interest of our approach would be of critical importance when deciding on mitigation factors and balancing health, societal and economic consequences of any proposed mitigation measures.

• Lundi 4 janvier 2021 - - Salle de réunion 142, bâtiment 210
Marie-Laure Martin-Magniette
(INRAE, IPS2, MIA Paris)
Comment les modèles de mélange ont permis d'identifier une réponse globale aux stress chez la plante Arabidopsis et la levure S. cerevisae

Collaboration avec : Etienne DELANNOY, Rim ZAAG, Christine Paysant-Le Roux et Guillem RIGAILL

La réponse des plantes aux stress est contrôlée par de nombreux réseaux d’interactions moléculaires. Au niveau transcriptomique, ces réseaux peuvent être explorés par des approches de « coupable par association » pour identifier des modules fonctionnels contrôlant la physiologie de la plante. Dans notre projet, nous avons considéré presque 400 comparaisons transcriptomiques décrivant des réponses aux stress de la plante modèle Arabidopsis thaliana, toutes produites au cours des 15 dernières années par la plateforme de notre institut avec des protocoles standardisés (Gagnot et al (2008) NAR 36:D986-90). Ces comparaisons ont été divisées en 18 catégories et pour chaque catégorie, nous avons identifié des groupes de gènes co-exprimés à l’aide d’un modèle de mélange gaussien.

Au total, 634 groupes de co-expression ont été identifiés et leur annotation a montré de nombreux enrichissements fonctionnels. Tous les résultats par catégorie de stress sont disponibles dans le module GEM2Net (https://tools.ips2.u-psud.fr/GEM2NET) de la base de données CATdb (Zaag et al  (2015) NAR 43:D1010–D1017). Les analyses de co-expression étant faites par catégorie de stress, nous les avons ensuite intégrées pour construire à l’aide de modèle de mélange de graphes un réseau de co-régulation impliquant 2476 gènes regroupés en 43 communautés stables. Une analyse topologique de ce réseau de co-régulation a permis d’identifier 4 grandes fonctions biologiques et une organisation hiérarchique entre ces 4 grandes fonctions qui est la réponse globale aux stress des plantes. Pour savoir si cela était général, nous avons appliqué la même démarche sur des données de levure et nous avons montré des résultats similaires.

L’objectif de cet exposé est de présenter les différentes étapes de ce projet, la méthodologie qui repose sur les modèles de mélange et l’apport de la modélisation statistique.

### 2020

• Lundi 14 décembre 2020 - - Salle de réunion 142, bâtiment 210
Christine Kéribin
(Université Paris Sud, LMO)
Cluster or co-cluster the nodes of an oriented graph?

When clustering the nodes of a graph, a unique partition of the nodes is usually built, either the graph is undirected or directed. While this choice is pertinent for undirected graphs, it should be discussed for directed graphs because it implies that no difference is made between the clusters of source and target nodes. We examine this question in the context of probabilistic models with latent variables and compare the use of the  Stochastic Block Model (SBM) and of the Latent Block Model (LBM). We analyze and discuss this comparison  through simulated and real data sets and suggest some recommendation.

• Lundi 30 novembre 2020 - - Salle de réunion 142, bâtiment 210 (en visioconférence)
(Heinrich Heine University, Düsseldorf)
Growth Balance Analysis and cellular growth states determined by the singular value decomposition of the stoichiometric matrix

The biological fitness of microbes is largely determined by the rate with which they replicate their biomass composition. Mathematical models that maximize this balanced growth rate while accounting for mass conservation, reaction kinetics, and limits on dry mass per volume are inevitably non-linear. Here, we develop a general theory for such models with full rank stoichiometric matrices, termed Growth Balance Analysis (GBA), which provides explicit expressions for protein concentrations, fluxes, and growth rates. These variables are functions of the concentrations of cellular components, for which we calculate marginal fitness costs and benefits that are related to metabolic control coefficients. At maximal growth rate, the net benefits of all concentrations are equal. For general models with rank-deficient stoichiometric matrices, we present the mathematical description of cellular growth states in terms of a decomposition into some limited number of growth modes, which are uniquely determined by the singular value decomposition (SVD) of the stoichiometric matrix.

• Lundi 16 novembre 2020 - - Salle de réunion 142, bâtiment 210
Isabelle Goldringer
(INRAE Génétique Quantitative et Evolution – Le Moulon)
Quels dispositifs et méthodes d’analyse pour la recherche participative et décentralisée à la ferme ?

En agriculture biologique et/ou agroécologie, les environnements des cultures et les pratiques agronomiques sont très diversifiés. Cette diversité peut être prise en compte par une sélection décentralisée dans les fermes associant les savoir-faire des acteurs de terrain et les connaissances scientifiques, telle que celle menée depuis 2006 sur le blé tendre avec le Réseau Semences Paysannes. Cette approche permet de : 1) créer de nouvelles variétés populations de blé tendre adaptées localement (innovation génétique) ; 2) mettre en place des stratégies de gestion collective de la diversité basé sur la co-construction (innovation sociale) ; 3) développer des dispositifs expérimentaux, des méthodes et des outils statistiques et de gestion de données qui favorisent ces innovations (Rivière et al 2013). Des modèles statistiques Bayesiens ont été adaptés pour permettre l’analyse des données issues des essais décentralisés sur les fermes, ces essais étant de tailles variables, parfois très réduites, avec peu de répétitions et peu de variétés communes d’une ferme à l’autre (coll. O David, MaIAGE). La prise en compte de l’information sur le réseau dans un modèle Bayesien a permis d’améliorer la stabilité des estimations et notre capacité à détecter des différences significatives entre populations au sein d’une ferme (Rivière et al. 2015) et d’estimer les effets génétiques moyens et les interactions GxE sur l’ensemble du réseau. Une approche par simulation a permis d’explorer des gammes assez larges de valeurs des paramètres du dispositif expérimental afin d’identifier des valeurs seuils à atteindre et les zones où les modèles se comportent bien (van Frank et al 2019). Les résultats nous permettent à la fois de proposer des évolutions aux participants du programme de sélection participative (SP) blé et de donner des recommandations à de nouveaux groupes qui démarrent.

Nous nous intéressons finalement à la diversité génétique des populations en cours de sélection et issues de SP afin de mieux comprendre les pressions (dérive, sélection naturelle ou humaine, circulation des semences) qui façonnent l’évolution de ces populations. Nous abordons ces question par 1) des analyses de diversité génétique sur des échantillons de populations, 2) des analyses de l’évolution des caractères phénotypiques. Dans ce cadre, un modèle d’évolution en génétique quantitative a été développé pour tester la présence de sélection naturelle sur les fermes au cours des générations à partir de données phénotypiques mesurées. L’approche a été testée avec des données simulées puis appliquée aux données issues du programme de SP blé (David et al 2020).

Nous souhaitons maintenant mieux prendre en compte l’information sur l’histoire des populations (pedigree) et les spécificités des environnements pour comprendre les déterminants de l’évolution de ces populations.

Références :

- Rivière P, Pin S, Galic N, De Oliveira Y, David O, Dawson J, Wanner A, Heckmann R, Obbellianne S, Ronot B, Parizot S, Hyacinthe A, Dalmasso C, Baltassat R, Bochède A, Mailhe G, Cazeirgue F, Gascuel J-S, Gasnier R, Berthellot J-F, Baboulène J, Poilly C, Lavoyer R, Hernandez M-P, Coulbeaut J-M, Peloux F, Mouton A, Mercier F, Ranke O, Wittrish R, De Kochko P, Goldringer I (2013) Mise en place d'une méthodologie de sélection participative sur le blé en France. Innovations Agronomiques 32 : 427-441.

- Rivière P, Dawson JC, Goldringer I, David O. (2015) Hierarchical Bayesian modeling for flexible experiments in decentralized participatory plant Breeding. Crop Science 55(3): 1053-1067. DOI: 10.2135/cropsci2014.07.0497

- van Frank G, Goldringer I, Rivière P & O David. (2019) Influence of experimental design on decentralized, on-farm evaluation of populations: a simulation study. Euphytica 215(7): UNSP 126 doi: 10.1007/s10681-019-2447-9.

- David O, G van Frank, I Goldringer, P Rivière, M Turbet Delof. (2020) Bayesian inference of natural selection from spatio-temporal phenotypic data. Theoretical Population Biology 131: 100-109.

• Lundi 2 novembre 2020 - - Salle de réunion 142, bâtiment 210
Yaroslav Averyanov
(Université de Lille - INRIA, équipe projet Modal)
Early stopping in regression with reproducing kernels: some ideas towards optimality
In this talk, I will discuss how to understand the behavior of early stopping for iterative learning algorithms in reproducing kernel Hilbert space in the nonparametric regression framework. In particular, I will focus on celebrated gradient descent and (iterative) kernel ridge regression algorithms. It is widely known that nonparametric models offer great flexibility for the user however they tend to overfit. Thus, some form of regularisation is needed - this is why early stopping can help us. More precisely, I will show how to construct a data-driven stopping rule without a validation set. This rule will be based on the so-called minimum discrepancy principle, which is a technique borrowed from the inverse problem literature. The proposed rule appeared to be minimax optimal over different types of kernel spaces, including finite rank and Sobolev smoothness classes. Besides that, simulated experiments will be discussed as well that show the comparable performance of the new strategy with respect to some extensively used model selection methods.
• Lundi 19 octobre 2020 - - Salle de réunion 142, bâtiment 210 (en viosioconférence)
Jonathan Karr
(Icahn School of Medicine at Mount Sinai, Karr Lab)
Making biochemical data more accessible, reusable, and composable

A more comprehensive understanding of cellular biochemistry will likely be critical to the advancement of precision medicine and synthetic biology. For example, computer-aided design tools based on biochemical models could help bioengineers design synthetic genomes for a wide range of applications. Understanding biochemistry requires multiple types of data about different cellular subsystems. Despite the development of various formats, ontologies, and repositories, obtaining, reusing, and composing data remain three of the biggest bottlenecks to integrative biochemical research. For example, most supplementary materials remain difficult to reuse, most data sets do not provide enough metadata to understand exactly what was measured, and the data that is publicly available is scattered across numerous databases.

To make it easier to find the data needed for integrative biochemical research, we have developed Datanator (https://datanator.info), an integrated database of several key types of molecular data and tools for finding relevant data for specific projects about specific species and reactions in particular organisms and environmental conditions. We assembled much of the content in Datanator from ad hoc supplementary spreadsheets to articles. To make it easier to reuse supplementary tables, we have developed ObjTables (https://objtables.org), a toolkit which makes it easier both for authors to create high quality spreadsheets and for other investigators to reuse them. Due to the importance of modifications to DNA, RNA, and proteins and macromolecular complexes, Datanator captures measurements of non-canonical proteins and complexes. To concretely describe these molecules, we have developed BpForms (https://bpforms.org) and BcForms (https://bcforms.org). BpForms generalizes IUPAC/IUBMB/FASTA to encompass canonical and modified nucleic and amino acids, crosslinks, nicks, and bonds which form circular molecules. BcForms enables concrete descriptions of complexes which can include modified polymers and inter-subunit crosslinks. Together, we anticipate that Datanator, ObjTables, BpForms, and BcForms will facilitate integrative biochemical research.

• Lundi 5 octobre 2020 - - Salle de réunion 142, bâtiment 210
Eva Lochërbach
(Université Paris 1, SAMM )
Métastabilité pour des systèmes de neurones en interactions

Joint work with P. Monmarché

We study  a stochastic system of interacting neurons and its metastable properties. The system consists of N neurons, each spiking randomly with rate depending on its membrane potential. At its spiking time, the neuron potential is reset to 0 and all other neurons receive an additional amount h/N of potential. In between successive spike times, each neuron loses potential at exponential speed. We study this system in the supercritical regime, that is, for sufficiently high values of the synaptic weight h. Under very mild conditions on the spiking rate function, is has been shown in Duarte and Ost (2016) that the only invariant distribution of the finite system is the trivial measure corresponding to extinction of the process. Under minimal conditions on the behavior of the spiking rate function in the vicinity of 0, we prove that the extinction time arrives at exponentially late times in N, and discuss the stability of the equilibrium measure for the non-linear mean-field limit process depending on the parameters of the dynamics.  We then specify our study to the case of saturating spiking rates and show that, under suitable conditions on the parameters of the model, 1) the non-linear mean-field limit admits a unique and globally attracting equilibrium and 2) the rescaled exit  times for the mean spiking rate of a finite system from a neighbourhood of the non-linear equilibrium rate converge in law to an exponential distribution, as the system size diverges. In other words, the system exhibits a metastable behavior.

• Lundi 7 septembre 2020 - - Salle de réunion 142, bâtiment 210 (en visioconférence)
Oliver Ebenhöh
(Heinrich Heine University, Düsseldorf)
Thermodynamic limits of microbial growth

Microbial growth laws present simple equations relating the growth
rate of an organism to the limiting nutrient concentration. Since
their introduction by Jacques Monod in the 1940's, growth laws have
been intensely researched, where a major challenge remains to explain
these laws from underlying first principles. Before the advent of
high-throughput sequencing technologies, which also form the basis for
the construction of genome-scale metabolic network models, microbial
growth was often described by so-called "black box" models, in which
metabolism was described by global, "macrochemical" equations. A
consistent thermodynamic theory has been developed around these black
box models in the second half of the 20th century, which seems to have
been largely forgotten by 21st century metabolic modellers. Here, we
show that black box models are still highly useful and often possess
similar predictive powers as far more complex whole-genome models,
while their explanatory powers, and thus their potential to gain new
insight into basic principles, are far superiour due to their extreme
simplicity. We outline a few attempts to integrate the thermodynamic
theory behind black box models into modern genome-scale modelling
approaches. We envisage that such integration will form the basis for
a sound thermodynamic theory of microbial growth, and help
understanding the fundamental thermodynamic limits of microbial
growth.

• Lundi 15 juin 2020 - - Salle de réunion 142, bâtiment 210
Thomas Denecker
(Université Paris-Saclay - CNRS, UMR 9198 I2BC)
Functional networks of co-expressed genes to explore iron homeostasis processes in the pathogenic yeast

Joint woirk with Youfang ZHOU LI, Cécile FAIRHEAD, Karine BUDIN, Jean-Michel CAMADRO, Monique BOLOTIN-FUKUHARA, Adela ANGOULVANT and Gaëlle LELANDAIS

Infections due to Candida yeast species cause serious problems in aging populations and patients with compromised immunity. In this context, Candida glabrata has been reported as the second cause of candidiasis (1). Infections remain challenging to treat owing to delayed diagnosis, natural low susceptibility to azole antifungals and acquired resistance to echinocandins (2). During host infection, pathogens face abrupt physiological changes in their immediate environment. A major player is iron, as iron bioavailability is a key factor involved in the “nutritional immunity” host-defense mechanism (3). Remarkably, iron is a two-faced oligo-element for living organisms. On the one hand, iron is essential, as part of heme- and iron-sulfur cluster (ISC)-containing proteins involved in a variety of vital functions including oxygen transport, DNA synthesis, metabolic energy or cellular respiration and on the other hand, iron is toxic. Its excess triggers oxidative stress, lipid peroxidation and DNA damage that ultimately compromise cell viability and can promote programmed cell death. Iron homeostasis is therefore essential to allow pathogens to maintain a balance between iron utilization, storage, transport and uptake in the host environment.

The aim of the present work was to specifically study iron homeostasis in the pathogenic yeast C. glabrata. We performed transcriptomic experiments to monitor gene expression changes of C. glabrata to iron deficient and overload conditions, at 30°C and 37°C. The resulting dataset was analyzed to (i) clarify the potential effect of temperature on iron homeostasis, (ii) identify iron responsive genes, i.e genes significantly up- or down-regulated in at least one iron imbalanced situation and (iii) define a new set of genes, referred to as “iron homeostasis key genes” (iHKG). These genes are good candidates to be chief components of iron homeostasis. Our exploration of the datasets was facilitated by the inference of functional networks of co-expressed genes, which can be accessed through a web interface (https://thomasdenecker.github.io/iHKG/).

The philosophy of this work is to empower researchers by providing access to all transcriptomics data and by generating easily interpretable graphical outputs. This should facilitate deep exploration of genome-wide functional data in the pathogenic yeast C. glabrata to advance our global understanding of iron homeostasis.

References
1. Pfaller,M.A. and Diekema,D.J. (2007) Epidemiology of Invasive Candidiasis: a Persistent Public Health Problem. Clin. Microbiol. Rev., 20, 133–163.Barbara Gastel and Robert A Day. How to write and publish a scientific paper. ABC-CLIO, 2016.
2. Pfaller,M.A., Castanheira,M., Lockhart,S.R., Ahlquist,A.M., Messer,S.A. and Jones,R.N. (2012) Frequency of Decreased Susceptibility and Resistance to Echinocandins among Fluconazole-Resistant Bloodstream Isolates of Candida glabrata. J. Clin. Microbiol., 50, 1199–1203.
3. Sutak,R., Lesuisse,E., Tachezy,J. and Richardson,D.R. (2008) Crusade for iron: iron uptake in unicellular eukaryotes and its significance for virulence. Trends Microbiol., 16, 261–268.

• Lundi 23 mars 2020 - - Salle de réunion 142, bâtiment 210
Jean-François Rey
(INRA, BIOSP)
R package et Shiny Apps development using GitLab CI/CD pipeline

provide a specific part of project life cycle management or are third-parties solutions.
Here we introduce an open source and free solution to manage R packages developments and deliveries.

In this presentation we will focus on the GitLab Community Edition self-hosted, a web-based
Git-repository and projet life cycle management. Then we focus in it continuous integration and delivery pipeline part, using Docker and VirtualBox, for R packaging et R Shiny Apps deliveries.
This local solution uses in our laboratory allows us to develop R codes in a collaborative mode and to automate R packages checking and building (archives and binaries).This process allows us to share private and/or in development R packages on multiples OS and to accelerate CRAN submission by decreasing checking error. Finally the R shiny pipeline allow us to build and deploy in production without the intervention of the IT staff.
• Lundi 9 mars 2020 - - Salle de réunion 142, bâtiment 210
Kristine Schauer
(Institut Curie)
Density maps to study the role of endomembrane organization in cell function.

Many cellular disorders are accompanied by changes in the morphology and positioning of intracellular organelles. Yet, the functional consequences of organelle alterations are often not clear. Organelles are the key feature of eukaryotic cells that constitute to a complex endomembrane system regulating cell homeostasis and function. Systematic studies on the organization and relative positioning of organelles are difficult, because, on the one hand, in vivo approaches are limited by the access of the samples, and on the other hand, in vitro cultured cells display strong morphological cell-to-cell variations. We use a minimal cell culture system based on micropatterning that provides adhesive cues for defined cell spreading and reduced cell-to-cell variations. We combine this controlled cell culture condition with precise quantification of organelle positioning using a density-based imaging approach. We have previously shown that endomembranes reveal a characteristic, well-defined, stable and reproducible organization in micropatterned cells. In this lecture, I will outline the molecular mechanisms by which endomembranes are positioned within cells. I will present how we have recently used our density-based approach on micropatterns to systematically analyze motor proteins that regulate Golgi apparatus positioning. I will also describe emerging tools that allow to precisely and dynamically control positioning of organelles. Finally, I will close my lecture describing new insights about organelle alterations during cancer progression.

Selected publications
1. Capmany A, Yoshimura A, Kerdous R, Caorsi V, Lescure A, Del Nery E, Coudrier E, Goud B, Schauer K. MYO1C stabilizes actin and facilitates the arrival of transport carriers at the Golgi complex. J Cell Sci. 2019 Apr 26;132(8).
2. Grossier JP, Xouri G, Goud B, Schauer K. Cell adhesion defines the topology of endocytosis and signaling. The EMBO Journal, 2014 Jan 1;33(1):35-45.
3. Duong T, Goud B, Schauer K. Closed-form density-based framework for automatic detection of cellular morphology changes. Proceedings of the National Academy of Sciences USA. 2012 May 29;109(22):8382-7.
4. Schauer K, Duong T, Bleakley K, Bardin S, Bornens M, Goud B. Probabilistic density maps to study global endomembrane organization. Nature Methods 2010 Jul;7(7):560-6.

• Lundi 24 février 2020 - - Salle de réunion 142, bâtiment 210
Guillaume Kon Kam King
(INRAE, MaIAGE)
Bayesian modelling of complex dependent data

We revisit a classical method for ecological risk assessment, the Species Sensitivity Distribution (SSD) approach, in a Bayesian parametric and nonparametric framework.

SSD is a mandatory diagnostic required by environmental regulatory bodies from the European Union, the United States, Australia, China, among others. Yet, it is subject to much scientific criticism, notably concerning a historically debated parametric assumption for modelling species variability. Additional methodological flaws involve incomplete use of experimental data, often ignoring time-dependence, and poor uncertainty quantification. We demonstrate how to improve current methodoly in a number of ways using Bayesian parametric and nonparametric hierarchical models. In particular, we explain how to include censored data, time dependence and how to properly model uncertainty with the help of toxico-dynamic toxico-kinetic models. Next, tackling the problem using nonparametric mixture models, we show how to shed the classical parametric assumption and build a statistically sounder basis for SSD. The Bayesian nonparametric approach offers another advantage: the ability to deal with small datasets, typical in the field of ecological risk assessment. We use Normalised Random Measures with Independent Increments (NRMI) as the mixing measure because they offer a greater flexibility than the default prior in the field known as the Dirichlet process.

Indeed, NRMI induce a prior on the number of components in the mixture model that is less restrictive than the Dirichlet process. This feature is consistent with the fact that SSD practitioners do not usually have a strong prior belief on the number of components. We extend our mixture to censored data which are prevalent in ecotoxicology and we illustrate the advantage of the nonparametric SSD over the classical normal SSD and a kernel density estimate SSD on several real datasets.

We then perform a systematic comparison on simulated data, and finish by studying the clustering induced by the mixture model to examine patterns in species sensitivity.

• Lundi 27 janvier 2020 - - Salle de réunion 142, bâtiment 210
Olivier Rivoire
(CIRB)
An evolutionary perspective on gene regulation in bacteria

Transcriptional regulation in bacteria is often pictured as a network of operons controlled by transcription factors. This architecture, however, accounts only for part of the coordination of gene expression. I’ll present an alternative picture derived from an evolutionary analysis of hundreds of bacterial genomes which suggests that the basic units of regulation are not necessarily operons and that their control does not necessarily involve transcription factors.

• Lundi 13 janvier 2020 - - Salle de réunion 142, bâtiment 210
Imke Mayer
(CAMS, EHESS)
Doubly robust treatment effect estimation with missing attributes
In healthcare and social sciences research, prospective observational studies are frequent, relatively easily put in place (compared to experimental randomized trial studies for instance) and can allow for different kinds of posterior analyses such as causal inferences. Average treatment effect (ATE) estimation for instance is possible through the use of propensity scores which allow to correct for treatment assignment biases in the non-randomized study design. However, a major caveat of large observational studies is their complexity and incompleteness: the covariates are often taken at different levels and stages, they can be heterogeneous – categorical, discrete, continuous – and almost inevitably contain missing values. The problem of missing values in causal inference has long been ignored and only recently gained some attention due to the non-negligible impacts in terms of bias induced by complete case analyses and misspecified imputation models. We discuss conditions under which causal inference can be possible despite missing attributes, namely unconfoundedness on the observed values; we propose two alternative ATE estimators which directly account for the missing values, the first is built on logistic-linear specification and observed likelihood, appropriate for data missing at random, while the second uses semi-parametric estimation based on random forests with the great advantage of handling data missing not at random. We assess the performance of our estimators on a large prospective database containing detailed information about over 20,000 severely traumatized patients in France. Using the proposed ATE estimators and this database we study the effect on mortality of tranexamic acid administration to patients with traumatic brain injury in the context of critical care management.

### 2019

• Lundi 2 décembre 2019 - - Salle de réunion 142, bâtiment 210
Aline Marguet
(INRIA, IBIS)
Héritabilité et variabilité des paramètres d'expression génique dans les populations de cellules.

Les techniques expérimentales modernes permettent de suivre les dynamiques individuelles d'expression génique et de quantifier leur variabilité dans des populations microbiennes isogéniques. L'une des sources de cette variabilité est la stochasticité affectant l'héritabilité des facteurs d'expression génique lors de la division cellulaire. Les relations de parenté entre les différentes cellules, qui peuvent être récupérées grâce à l'observation des cellules individuelles, constituent des informations précieuses pour la caractérisation de cette source extrinsèque de bruit dans l'expression génique.

À partir d'un modèle pour les mécanismes de transcription et translation, je proposerai un modèle stochastique pour l'évolution de la dynamique d'expression génique dans une population de cellules et présenterai une méthode pour l'estimation de l'héritabilité et de la variabilité des paramètres d'expression génique à partir de données individuelles d'expression génique couplées aux informations de lignées. Je montrerai que notre approche fournit des estimateurs sans biais de l'héritabilité alors que les techniques indirectes ont tendance à la sous-estimer. Enfin, je présenterai l'application de notre méthode à des données de réponse de la levure à des chocs osmotiques et les conclusions biologiques associées. Ce travail est issu d'une collaboration avec Eugenio Cinquemani et Marc Lavielle.

• Lundi 18 novembre 2019 - - Salle de réunion 142, bâtiment 210
Andrea Rau
(INRA, GABI)
Integrative methods for multi-omic data reveal multi-level gene regulation

Malignant progression of normal tissue is typically driven by a complex network of somatic changes, including genetic mutations, copy number aberrations, epigenetic changes, and transcriptional reprogramming. In this context, The Cancer Genome Atlas (TCGA) has greatly advanced cancer research by generating, curating and publicly releasing deeply measured molecular data from thousands of tumor samples. In this work, we investigate two integrative approaches to exploit these rich multi-omic data to provide insight into multi-level gene regulation in cancer.  First, we introduce a statistical framework for partitioning the variation in gene expression due to a variety of molecular variables including somatic mutations, transcription factors (TFs), microRNAs, copy number alternations, methylation and germ-line genetic variation. To facilitate an interactive exploration of the results of our transcriptome-wide analyses across 17 different cancers, we provide a freely available, user-friendly, browseable web-based application called EDGE in TCGA (http://ls-shiny-prod.uwm.edu/edge_in_tcga). Second, we develop an exploratory method called padma based on a Multiple Factor Analysis (MFA) to identify and quantify pathway-specific multi-omic deviations between individuals and the overall sampled population. In particular, padma characterizes individuals with aberrant multi-omic profiles for a given pathway of interest and quantifies this deviation with respect to the sampled population using a multi-omic consensus representation. We demonstrate the utility of padma to correlate patient outcomes with complex perturbations to clinically actionable pathways at the genetic, epigenetic, and transcriptomic levels across multiple pathway nodes, which lays the groundwork for enabling personalized treatment strategies that could be tailored to complex patient-specific pathway perturbations.

• Lundi 21 octobre 2019 - - Salle de réunion 142, bâtiment 210
Julie Aubert
(AgroParisTech-INRA, UMR 518 MIA)
Unraveling biotic interactions determining soil microbial community assembly and functioning

Joint work with S. Romdhane, A. Spor, S. Ouadah, L. Philippot

Microbial communities play important roles in all ecosystems and yet, a sound understanding of the ecological processes governing the assembly of these communities in the environment is missing. To address the role of biotic interactions in assembly and functioning of the soil microbiota, we used a top down manipulation approach based on the removal of various populations in a natural microbial community. Suspensions of the soil microbiota were subjected to various biocidal and filtration treatments before being inoculated into the same sterilized soil. We hypothesized that if biotic interactions is an important force shaping the assembly of microbiota, removal of microbial groups should largely affect the fitness of the remaining ones during soil recolonization. We show that nearly 50 % of the dominant bacterial taxa were subjected to competitive interactions, underlining the importance of biotic interactions in the assembly of microbial communities in soil. Moreover, evidence for competitive exclusion between members of Bacillales and Proteobacteriales suggests that potential general rules of microbial community assembly can be identified. Reassembly after removal resulted in greater changes in activities related to N- than to C-cycling indicating functional differences. Our approach can provide a new avenue to study microbial interactions in complex ecosystems.

• Lundi 7 octobre 2019 - - Salle de réunion 142, bâtiment 210
Blaise Hanczar
(Université d'Evry, IBISC)
Apprentissage profond pour la prédiction de phénotypes à partir de données d’expression

L’apprentissage profond (deep learning) est une méthode d’intelligence artificielle qui a récemment permis de faire d’impressionnants progrès dans de nombreux domaines scientifiques. Parmi ses applications les plus prometteuses se trouvent la médecine personnalisée et l’analyse des données «omiques».  Aujourd’hui, des efforts croissants sont déployés pour utiliser l’apprentissage profond sur des données génomiques, transcriptomiques, protéomiques et méta-génomiques afin de mieux caractériser les patients. Après avoir exposé brièvement le principe des réseaux de neurones, je présenterai nos travaux sur la prédiction de phénotypes à partir de données d’expression de gènes. Dans cette tâche, les deux principaux verrous scientifiques sont la petite taille de la base d’apprentissage et l’interprétation du réseau. Les  méthodes basées sur l’apprentissage par transfert et l’apprentissage semi-supervisé seront utilisées afin de pallier au premier problème. Pour l’interprétation, nous proposons de décomposer le calcul de chaque prédiction dans le réseau de neurones afin d'associer à chaque neurone de la connaissance biologique.

• Lundi 23 septembre 2019 - - Salle de réunion 142, bâtiment 210
Timothée Tabouy
(AgroParisTech-INRA, UMR 518 MIA)
Impact de l’échantillonnage sur l’inférence de structures dans les réseaux. Application aux réseaux d’échanges de graines et à l’écologie

Dans cette thèse nous nous intéressons à l’étude du modèle à bloc stochastique (SBM) en présence de données manquantes. Nous proposons une classification des données manquantes en deux catégories Missing At Random et Not Missing At Random pour les modèles à variables latentes suivant le modèle décrit par D. Rubin. De plus, nous nous sommes attachés à décrire plusieurs stratégies d’échantillonnages de réseau et leurs lois. L’inférence des modèles de SBM avec données manquantes est faite par l’intermédiaire d’une adaptation de l’algorithme EM : l’EM avec approximation variationnelle. L’identifiabilité de plusieurs des SBM avec données manquantes a pu être démontrée ainsi que la consistance et la normalité asymptotique des estimateurs du maximum de vraisemblance et des estimateurs avec approximation variationnelle dans le cas où chaque dyade (paire de nœuds) est échantillonnée indépendamment et avec même probabilité. Nous nous sommes aussi intéressés aux modèles de SBM avec covariables, à leurs inférence en présence de données manquantes et comment procéder quand les covariables ne sont pas disponibles pour conduire l’inférence. Finalement, toutes nos méthodes ont été implémentées dans un package R disponible sur le CRAN. Une documentation complète sur l’utilisation de ce package a été écrite en complément.

• Lundi 9 septembre 2019 - - Salle de réunion 142, bâtiment 210
Aurélien Latouche
(CNAM, MSDMA)
Semiparametric approach for covariate-specific time dependent ROC curves for correlated survival data / Validation d'un marqueur pronostique à partir de données de survie en grappe

Joint work with Alessandra Meddis and Paul Blanche

1 Introduction
Considerable research has focused on the development of new biomarkers. The first step in developing a clinically useful biomarker is to identify its ability in discriminating patients at high risk of dying within the next t-years (e.g. 5-years) from those who will not. The standard methodology to quantify the discrimination performance of a biomarker, with right censored data, is to estimate time dependent ROC curves, ROC(t). In presence of clustered failure times, the common strategy is to ignore heterogeneity in the phase of evaluation of the performance of a candidate biomarker, but to confirm its discriminatory capacity, it is important to account for heterogeneity while adjusting for clinical covariates. The usefulness of our approach is illustrated on our motivating example, which consists in the first meta-analysis on individual data of more than 2000 patients from 15 centers with non metastatic breast cancer. Its objective was to quantify the clinical usefulness of circulating tumor cells (CTCs) count as a prognostic marker of survival.
2 Methodology
ROC(t) allows to study the capacity of a biomarker Y to discriminate between patients who experience event prior time t (cumulative cases) from those who do not up to time t (dynamic controls). The current methodol- ogy does not account for heterogeneity while estimating ROC(t). In this work, we fill this gap by proposing an extension to clustered data of the Song & Zhou method (Statistica Sinica, 2008). To estimate the covariate- specific time dependent ROC curve we consider a joint model: (i) shared frailty model which links the covariates and the biomarker to the time-to-event, (ii) location scale model to link the covariates to the biomarker. We evaluate the performance of the proposed method in a simulation study. We demonstrate an application of the estimator to data derived from a meta-analysis on individual patient data with non metastatic breast cancer where the goal is to understand the clinical usefulness of CTCs count for this scenario. In particular, we estimate the covariate-specific ROC curves that quantify the discrimination performance of CTCs count within subgroups of patients having the same tumor stage at time of diagnosis, since subjects with inflammatory tumor show a higher number of CTCs and a poorer prognosis. A bootstrap method is proposed for calculating confidence intervals.
3 Results
The estimator is computationally simple and the simulation results highlighted the robustness of the method at varying of censoring with negligible bias (≈ 10−3). Moreover, we provide the results for the motivating example with the time dependent ROC curves and respective AUCs for different tumor stage. The wide confidence intervals highlighted that having inflammatory tumor does not influence the discrimination of the CTCs count.
4 Conclusions
In presence of clustered failure times it is important to take into account heterogeneity. In fact, the introduction of a random effect (frailty) is needed to estimate the performance of the biomarker in the general population. In this scenario, the covariate-specific time dependent ROC curve can be easily estimated with the proposed approach.

• Mardi 25 juin 2019 - - Salle de réunion 142, bâtiment 210
Mathieu Roche
Analyse spatiale et thématique par des méthodes de fouille de textes

Les dynamiques spatiales et thématiques font l'objet d'un intérêt croissant notamment dans les milieux à enjeux et de tension (épidémiologie, sécurité alimentaire, etc.). L’objectif de nos travaux est de proposer un cadre méthodologique permettant l’appréhension de ces phénomènes à partir de données textuelles hétérogènes. Les analyses produites s'appuient, en général, sur trois types d'informations (thématiques, spatiales et temporelles) qui sont extraites et exploitées par des méthodes de fouille de données et de traitement automatique du langage naturel (TALN). Les contributions méthodologiques seront présentées à travers différents projets pluridisciplinaires et le déploiement d'outils dédiés, en particulier le système PADI-Web propre à la veille automatique en épidémiologie animale.

• Lundi 17 juin 2019 - - Salle de réunion 142, bâtiment 210
Arnaud Gloaguen
(CentraleSupelec, L2S)
Joint Matrix/Tensor Factorization with MGCCA

Regularized Generalized Canonical Correlation Analysis (RGCCA) is a general multiblock data analysis framework that encompasses several important multivariate analysis methods such as principal component analysis, partial least squares regression and several versions of generalized canonical correlation analysis. In this paper, we extend RGCCA to the case where at least one block has a tensor structure. This method is called Multiway Generalized Canonical Correlation Analysis (MGCCA). Convergence properties of the MGCCA algorithm are studied and computation of higher-level components are discussed. The usefulness of MGCCA is shown on simulation and on the analysis of a cognitive study in human infants using high-density electro-encephalography (EEG).

• Lundi 6 mai 2019 - - Salle de réunion 142, bâtiment 210
Pierre Alquier
(ENSAE)
Generalization bounds for variational inference.

Bayesian inference provides an attractive learning framework to analyze data, and to sequentially update knowledge on streaming data. Unfortunately, exact Bayesian inference is rarely feasible in practice and approximation methods are usually employed, but do such methods preserve the generalization properties of Bayesian inference? In this talk, I will show that it is indeed the case for some variational inference (VI) algorithms. First, I will show generalization bounds for estimation in the batch setting. These results can be seen as extensions of the "concentration of the posterior" theorems to variational approximations of the posterior. I will then focus on the sequential case (streaming data). I will propose various online VI algorithms and derive generalization bounds. In this case, our theoretical result relies on the convexity of the variational objective, but we argue that our result should hold more generally and present empirical evidence in support of this.

Joint works with James Ridgway (https://arxiv.org/abs/1706.09293), Badr-Eddine Chérief-Abdellatif (https://projecteuclid.org/euclid.ejs/1537344604) and Emti Khan (will appear on arXiv in the next few days)

• Lundi 15 avril 2019 - - Salle de réunion 142, bâtiment 210
Frédérique Clément
(INRIA Saclay)
Modélisation multi-échelles en biologie du développement et de la reproduction : une approche “middle-out” basée sur la dynamique cellulaire

Dans cet exposé, nous présenterons des approches de modélisation multi-échelles, basées sur la
description des dynamiques cellulaires à l’œuvre dans un processus relevant à la fois de la biologie du
développement et de la biologie de la reproduction, la folliculogenèse ovarienne.
Le formalisme sous-jacent est celui des dynamiques de populations structurées, considérées soit d’un
point de vue déterministe (équations de transport non conservatives), soit d’un point de vue stochastique
(chaînes de Markov à temps continu). Ce formalisme permet d’établir des liens mécanistes
entre le contrôle du devenir cellulaire (prolifération, différenciation apoptose) et celui du destin fol-
liculaire (ovulation ou dégénérescence), ou d’étudier comment les interactions entre l’ovocyte et les
cellules somatiques environnantes façonnent la morphogenèse du follicule.
Nous illustrerons ces principes, d’une part, sur le développement terminal qui est intégré dans la
dynamique du cycle ovarien résultant des interactions hormonales au sein de l’axe hypothalamo-
hypophyso-gonadique, et, d’autre part, sur une étape du développement précoce pendant laquelle
le follicule ovarien se stratifie en plusieurs couches cellulaires concentriques à l’ovocyte.
Dans le premier cas, nous introduirons un système d’équations de transport faiblement couplées,
permettant de rendre compte du processus de sélection des follicules ovulatoires. Dans le deuxième cas,
nous décrirons en parallèle un processus de branchement multi-type et son équivalent déterministe.

• Lundi 1er avril 2019 - - Salle de réunion 142, bâtiment 210
Pierre Gloaguen
(AgroParisTech, MIAP)
La diffusion de Langevin comme modèle pour le déplacement animal et la sélection d'habitat

The utilisation distribution describes the relative probability of use of a spatial unit by an
animal. It is natural to think of it as the long-term consequence of the animal's short-term
movement decisions: it is the accumulation of small displacements which, over time, gives
rise to global patterns of space use. However, most utilisation distribution models either
ignore the underlying movement, assuming the independence of observed locations, or are
based on simplistic Brownian motion movement rules.
We introduce a new continuous-time model of animal movement, based on the Langevin
diffusion. This stochastic process has an explicit stationary distribution, conceptually anal-
ogous to the idea of the utilisation distribution, and thus provides an intuitive framework to
integrate movement and space use.
We model the stationary (utilisation) distribution with a resource selection function to link
the movement to spatial covariates, and allow inference into habitat selection.
Standard approximation techniques can be used to derive the pseudo-likelihood of the Langevin
diffusion movement model, and thus to estimate habitat preference and movement parame-
ters from tracking data. We investigate the performance of the method on simulated data,
and discuss its sensitivity to the time scale of the sampling. We present an example of its
application to tracking data of Stellar sea lions (fEumetopias jubatusg).
Due to its continuous-time formulation, this method can be applied to irregular teleme-
try data. It provides a rigorous framework to estimate long-term habitat selection from
correlated movement data.

Joint work with Marie-Pierre Etienne (AgroCampus Ouest) and Theo Michelot (University of Shefield)

• Lundi 18 mars 2019 - - Salle de réunion 142, bâtiment 210
Amandine Cornille
(INRA - Université Paris-Sud - CNRS - AgroParisTech, Génétique Quantitative et Évolution)
Ecological drivers and genomics bases of the aphid-apple-bacteria interaction in the context of domestication

Amandine’s research aims at unravelling the evolutionary forces underlying the adaptation of populations and the emergence of new species, using population genetics and genomics approaches combined with field experiments. She has studied both short and long evolutionary timescales (domestication and wild species divergence, respectively) to investigate the ecological factors and genomic processes underlying adaptation. Her research is now also moving toward the study of plant biotic interactions, which are fundamental to our understanding of biodiversity and adaptation; research over the past decades has indeed clearly demonstrated that interactions between species are major drivers of adaptive evolution. Amandine will present the main results of her past research on the apple domestication and the link with her starting project on the impact of apple domestication on the adaptation of a major apple aphid pest Dysaphis plantaginea (the rosy apple aphid) to the cultivated apple (Malus domestica).

• Lundi 4 mars 2019 - - Salle de réunion 142, bâtiment 210
Ralf Steuer
(Humboldt, Universität zu Berlin, Institut of Theoretical Biology)
Cellular resource allocation and the architecture of phototrophic growth

The potential offered by cyanobacteria will undoubtedly play a major role in mastering the challenges of the 21st century – from securing global food supply to the synthesis of renewable raw materials. As yet, however, fundamental questions regarding the metabolic principles of cyanobacterial phototrophic growth are not resolved: How are metabolic, photosynthetic, and ribosomal proteins optimally partitioned during phototrophic growth? What is the highest growth rate a cyanobacterium can attain?
The presentation will describe our recent efforts to answer these questions using experimental and constraint-based computational models: we describe phototrophic growth as a cellular resource allocation problem and estimate the costs and benefits of all metabolic constituents of a cyanobacterial cell. Of particular interest are the cellular organization that enables fast phototrophic growth and the corresponding intracellular limits on growth rates. The model-derived resource allocation is in good agreement with experimental findings. I will provide an outlook how such analyses has implications for ecology and models of global biogeochemical cycles.

References:
[1] Zavřel T(*), Faizi M, Loureiro C, Poschmann G, Stühler K, Sinetova M, Zorina A, Steuer R(*), Červený J (2019) Quantitative insights into the cyanobacterial cell economy. eLife  [* corresponding authors]
[2] Faizi M, Zavrel T, Loureiro C, Cerveny J, Steuer R (2018) A model of optimal protein allocation during phototrophic growth. Biosystems 166, 26-36.
[3] Reimers AM, Knoop H, Bockmayr A, Steuer R (2017) Cellular trade-offs and optimal resource allocation during cyanobacterial diurnal growth. Proc Natl Acad Sci U S A. Pii: 201617508.
[4] Westermark S and Steuer R (2016) Toward multiscale models of cyanobacterial growth: a modular approach. Front. Bioeng. Biotechnol. 4:95.
[5] Knoop H, Gruendel M, Zilliges Y, Lehmann R, Hoffmann S, Lockau W, Steuer R (2013) Flux balance analysis of cyanobacterial metabolism: The metabolic network of Synechocystis sp. PCC 6803. PLoS Comput Biol 9(6): e1003081.

• Lundi 18 février 2019 - - Salle de réunion 142, bâtiment 210
Sébastien Picault
(INRA-Oniris BIOEPAR Nantes et Univ. Lille-CNRS CRIStAL)
L'Intelligence Artificielle pour l'épidémiologie prédictive : faciliter la co-construction et la révision des modèles

La modélisation mécaniste permet de mieux comprendre la propagation de pathogènes dans et entre populations, d’en prédire la dynamique dans des situations contrastées, et d'identifier les mesures de gestion les plus pertinentes. Les enjeux sanitaires actuels demandent toutefois une diversité d'expertises qui accroît la complexité des modèles et rend coûteuse leur conception, au risque de réduire leur fiabilité, maintenabilité et réutilisabilité.

Mes travaux à BIOEPAR (Nantes) visent à élaborer un nouveau cadre de conception de modèles mécanistes en épidémiologie via des recherches en Intelligence Artificielle. L'utilisation de systèmes multi-agents multi-niveaux permet d'encapsuler les paradigmes classiques de modélisation (modèles à compartiments vs. centrés individus) à différentes échelles (individu, population, métapopulation) dans un formalisme homogène et modulaire, facilitant le changement de
représentation pour un même système. Simultanément, l'élaboration d'un langage domaine-spécifique (DSL) pour l’épidémiologie permet d’expliciter les hypothèses, paramètres, processus mobilisés, et donc de renforcer l'implication des experts non modélisateurs dès la conception des modèles et tout au long du processus de développement.

La combinaison d’une approche multi-agents et d'un DSL a ainsi conduit au framework EMULSION, développé depuis fin 2016 à BIOEPAR. Je montrerai
une application d'EMULSION à l'étude d'une zoonose endémique du bétail (la fièvre Q), pour comparer diverses hypothèses (états de santé pertinents, forme de la fonction de dispersion par le vent, etc.), eu égard aux données disponibles, et ainsi mieux comprendre la contribution des mouvements commerciaux vs. des conditions environnementales dans la propagation du pathogène à l'échelle d’un territoire.

Enfin, je présenterai comment ces travaux ouvrent la voie à une production automatisée d’outils d'aide à la décision dédiés aux gestionnaires de la santé (techniciens conseils, vétérinaires, décideurs publics).

• Lundi 4 février 2019 - - Salle de réunion 142, bâtiment 210
Vincent Miele
(UCB Lyon1, UMR CNRS 5558 LBBE)
Exploring multiplex ecological networks

Within an ecosystem, species interact with each other in many different ways, including predation, competition, and facilitation, and this can be modelled as a network of multiple interaction types (called "multiplex" network). The variety of interaction types that link species to each other has long been recognized but has rarely been synthesized for entire multi-species ecosystems. In a first part, I will present our recent study [1] on a unique marine ecological network that integrates thousands of trophic and non-trophic interactions. Using network statistical modeling, we showed that the diverse interaction types have a suprinsingly simple non-random organization. In a second part, I will present our recent study [2] where we investigated the role of the diversity of interaction types per se for species diversity and the functioning of ecological communities, using a bio-energetic consumer-resource dynamical model in which we incorporated the non-trophic interactions.

En collaboration avec Sonia Kéfi (CNRS, Institut des sciences de l'évolution, Montpellier).

[1] Kéfi et al, PLoS Biol (2016), https://doi.org/10.1371/journal.pbio.1002527
[2] Miele et al, biorxiv (2018), https://doi.org/10.1101/411249

• Lundi 21 janvier 2019 - - Salle de réunion 142, bâtiment 210
Paul Bastide
(KU Leuven)
A flexible Bayesian framework to study viral trait evolution

During the course of an outbreak or epidemic, many viral pathogens are known to evolve rapidly, leaving imprint of the pattern of spread in their genomes. Uncovering the molecular footprint of this transmission process is a key goal of phylodynamic inference. Relatively less focus has been put on the evolution of quantitative phenotypic traits of viruses. Traits such as geographical location or virulence can be studied using phylogenetic Comparative Methods (PCMs) that account for a shared evolutionary history among the set of non-independent samples. Conditioning on such an history, the observed traits can be seen as the result of a stochastic process running on the branches of a phylogenetic tree. The Ornstein-Uhlenbeck (OU) process is often used to model stabilizing selection toward an optimal trait value. For a multivariate trait, the dynamics of the trajectory is controlled by a selection strength matrix, that is only constrained to have positive eigenvalues. Depending on the form of this matrix, the OU can have a variety of behaviors, and is hence suited to model various biological processes.

We propose a Bayesian inference framework for the study of this flexible model. Using a Markov Chain Monte Carlo (MCMC) based method, one critical aspect is to be able to sample uniformly in the space of constrained matrices, both for the selection strength and the variance matrix, in a context where traditional Gibbs sampling cannot be used. This can be done using a smooth transformation that maps the parameters to an unconstrained space. We investigated the use of two such maps, along with adequate prior distributions. MCMC methods also rely on multiple likelihood evaluations, at each step of the chain. Exploiting the tree structure, we studied a fast and flexible algorithm to compute both the likelihood and its gradient for a wide class of processes, that contains but is not limited to the OU. This makes it possible to use efficient sampling methods, such as the Hamiltonian Monte Carlo (HMC).

We implemented the new framework in BEAST, a widely used and flexible phylodynamics software. This allows us to leverage on the many other tools of the BEAST ecosystem, such as the phylogenetic factor model, that can be used to model extra-environmental variation, or the marginal likelihood estimation for model selection. It also offers us the possibility to integrate the results over the space of all probable trees, in an integrated analysis that directly starts from the genomic sequences, instead of relying on a fixed tree. We illustrate the use of this framework for the study of the heritability of virulence of the human immunodeficiency virus (HIV), a question that has attracted a lot of attention recently, and for which model choice is a recognized critical aspect.

• Lundi 7 janvier 2019 - - Salle de réunion 142, bâtiment 210
Nathanael Hozé
(Institut Pasteur, Unité de Modélisation mathématique des maladies infectieuses)
Assessing the level of virus circulation in the context of high cross-reactivity: the case of chikungunya and mayaro fever in French Guiana

Dengue, chikungunya and Zika have recently caused large outbreaks in the Americas. Besides those, other arboviruses may have been overlooked. For example, Mayaro virus (MAYV), which was first identified in 1954 in Trinidad, is very rarely detected by Sentinel surveillance in French Guiana (FG). However, we cannot rule out that some MAYV infections may have been misdiagnosed because Mayaro fever shares symptoms with other arboviral infections and there is cross-reactivity between MAYV and chikungunya virus (CHIKV). We propose a statistical approach to assess the circulation of both MAYV and CHIKV in FG using a multiplexed cross-sectional serological survey that includes 2,697 individuals sampled over the FG territory. We account explicitly for the cross-reactivity between MAYV and CHIKV. We find that 41% (95% CI: 35%, 48%) of MAYV cases might be misdiagnosed as CHIKV positive with serology assays. Our framework also allows testing and exploring different scenarios of virus circulation for each region of the territory. We find that MAYV has been circulating for years in the southern part of FG, affecting mostly adult males, and we estimate seroprevalence as high as 27% (95% CI: 19%, 35%) in some regions. On the opposite, a CHIKV epidemic hit FG in 2014, was more present in the northern, coastal regions and infected women more than men.

### 2018

• Lundi 17 décembre 2018 - - Salle de réunion 142, bâtiment 210
Sarah Lemler
(CentraleSupelec, MICS)
Estimation on a jump diffusion process with jumps driven by a Hawkes process

In neurosciences, two kinds of data are available: a continuous signal coming from the action potential of one single neuron along time, and several discrete signals which are the spike train of several neurons (the occurring times when the action potential overcomes a threshold). Usually these two kinds of data are investigated separately using either diffusion processes to describe the dynamic of the action potential or counting processes to describe the graph of connectivity between neurons (see [3]). We propose a new model which allows to deal with both type of signals in a single procedure to take into accounts the whole information. This new approach can be applied to neurosciences issues but also to other fields as in finance to model financial assets. Our model is a jump-diffusion model driven by a multidimensional Hawkes process (see [1]).  Assuming that we have high frequencies observations of the process together with observations of the multidimensionnal Hawkes process, we focus first on the nonparametric estimation of the drift function, when the other coefficients are assumed to be known (see [2]) and then we consider a simultaneous estimation of both parameters the jump parameter and the drift, assuming that $\sigma$ is known. The proposed method is based on a mean squared regression approach. The novelty here lies in the contrast function which takes into account the multidimensional Hawkes process. We will also discuss about the existence of a stationary measure for our process and ergodicity results that we need to obtain oracle inequalities for our estimators. Finally, a numerical study illustrates our purpose.

[1] P. Brémaud and L. Massoulié. Stability of nonlinear Hawkes processes. The Annals of Probability, 24, 1996, 1563-1588
[2] F. Comte and V. Genon-Catalot and Y. Rozenholc. Penalized nonparametric mean square estimation of the coefficients
of diffusion processes. Bernoulli, 13, 2007, 514-543
[3] P. Reynaud-Bouret and V. Rivoirard and C. Tuleau-Malot. Inference of functional connectivity in neurosciences via Hawkes processes. Global Conference on Signal and Information Processing (GlobalSIP), 2013 IEEE,  317-320
• Lundi 3 décembre 2018 - - Salle de réunion 142, bâtiment 210
(Université de Lorraine, Institut Elie Cartan de Lorraine, Nancy)
ABC Shadow algorithm: a tool for statistical analysis of spatial patterns

This talk presents an original ABC algorithm, {\it ABC Shadow}, that can be applied to sample posterior densities that are continuously differentiable. The proposed algorithm solves the main condition to be fulfilled by any ABC algorithm, in order to be useful in practice. This condition requires enough samples in the parameter space region, induced by the observed statistics. The algorithm is tuned on the posterior of a Gaussian model which is entirely known, and then it is applied for the statistical analysis of several spatial patterns. These patterns are issued or assumed to be outcomes of point processes. The considered models are: Strauss, Candy and area-interaction. Results on real data, representing the galaxies distribution in our Universe, are also shown.

• Lundi 19 novembre 2018 - - Salle de réunion 142, bâtiment 210
Amandine Véber
(Ecole Polytechnique, CMAP)
Le processus Lambda-Fleming-Viot spatial : un modèle d'évolution en espace continu

Ce processus a été introduit en 2008 par N. Barton (IST Austria) et A. Etheridge (U. Oxford) pour modéliser l'évolution de la diversité génétique au sein d'une population ayant une structure spatiale continue (un champ, une forêt, les Alpes, ...). Dans ce modèle, la régulation locale de la taille de population est assurée en encodant les reproductions non par des "horloges" individuelles, mais par une suite aléatoire d'évènements couvrant une certaine zone géographique et ayant un certain impact. Après avoir présenté le modèle, nous discuterons de tout le travail qui reste à faire pour mettre au point des méthodes statistiques permettant de reconstruire certains de ses paramètres-clés à partir de données.

• Lundi 5 novembre 2018 - - Salle de réunion 142, bâtiment 210
Zhanwu Dai
(INRA, UMR EGFV, Centre Inra de Nouvelle-Aquitaine-Bordeaux)
SÉMINAIRE ANNULÉ
• Lundi 22 octobre 2018 - - Salle de réunion 142, bâtiment 210
Christian Vestergaard
(CNRS-Institut Pasteur, Decision and Bayesian Computation Group)
Randomized reference models for studying contagion processes in temporal networks

Many dynamical systems can successfully be analyzed using the temporal network formalism. This is notably the case for the human interaction networks that support the spread of contagion and information processes in the population. Empirical temporal networks and dynamic processes that take place in these situations show heterogeneous, non-Markovian, and intrinsically correlated dynamics, making their analysis particularly challenging. Randomized reference models (RRMs) constitute a versatile toolbox for studying such systems. Defined as ensembles of random networks with given features constrained to match those of an input (empirical) network, they may be used to identify statistically significant features in empirical temporal networks (i.e.\ different from the null random networks) and to infer the effects of such features on dynamical processes unfolding in the network. However, the effects of most randomization procedures on temporal network features remain poorly understood, rendering their use non-trivial and susceptible to misinterpretation.

Here we propose a unified framework for classifying and understanding microcanonical RRMs (MRRMs), which constrain chosen features to take exactly the same value as in the empirical network but are otherwise random. The framework lets us order MRRMs and deduce their effects on important temporal network features, and we use it to show how we may generate new MRRMs from existing ones by sequential composition of independent MRRMs. We show how to apply the framework to unravel how different features of an empirical network of mobile-phone calls influence the spread of information.

• Lundi 8 octobre 2018 - - Salle de réunion 142, bâtiment 210
Elie Desmond-Le Quéméner
(INRA LBE)
Microbial thermodynamics: a tool for the understanding of mixed microbial consortia

The research conducted at LBE (Laboratoire de Biotechnologie de l'Environnement) in Narbonne aims to develop the concept of environmental biorefinery, which consists in treating the by-products of human activities (waste, agricultural residues, effluents) and valorizing them as resources of industrial interest (bioenergies, biomolecules, organic amendment), meanwhile minimizing their environmental and health impact. In this context, my research focus on the understanding of the rules governing microbial ecosystems at the heart of the functioning of these bioprocesses, in order to develop explanatory and predictive models for their control and optimization. Here I will present how microbial thermodynamics can be used:
-together with microbial transition state theory to predict microbial dynamics and functional community patterns
-to reveal extracellular electron transfer mediated parasitism
-to predict individual Operational Taxonomic Units (OTU) metabolism in mixed culture processes
I will also introduce few perspectives for the modelling of biotic interactions in microbial ecosystems (time-series analyses, individual based modelling...)

• Lundi 10 septembre 2018 - - Salle de réunion 142, bâtiment 210
Liubov Tupikina
(Ecole Polytechnique, Laboratoire de Physique de la Matière Condensée)
Heterogeneous network models
I will present some of our results on the general topic of random walks on networks. In particular, I will discuss the results about how heterogeneities influence the dynamics of, so-called, continuous time random walk model. Then I will talk about some further applications of the heterogeneous random walk model to the epidemiological models on static and temporal networks. Moreover, I will present some results of the discrete-state models on small graphs and discuss the challenges of the presented methods applications to the real data.

• Lundi 11 juin 2018 - - Salle de réunion 142, bâtiment 210
Tatiana Giraud
(CNRS-UPS-AgroParisTech, UMR UMR 8079 Ecologie, Systématique et Evolution)
Domestication of cheese-making fungi

Domestication is an excellent model for studies of adaptation because it involves recent and strong selection on a few, identified traits. Few studies have focused on the domestication of fungi, despite their importance to bioindustry and to a general understanding of adaptation in eukaryotes. Penicillium fungi are ubiquitous molds among which two distantly related species have been independently selected for cheese-making, P. roqueforti for blue cheeses like Roquefort, and P. camemberti for soft cheeses like Camembert. The selected traits include morphology, aromatic profile, lipolytic and proteolytic activities, and ability to grow at low temperatures, in a matrix containing bacterial and fungal competitors. By comparing the genomes of ten Penicillium species, we show that adaptation to cheese was associated with multiple recent horizontal transfers of large genomic regions carrying crucial metabolic genes. We identified seven horizontally-transferred regions (HTRs) spanning more than 10 kb each, flanked by specific transposable elements, and displaying nearly 100% identity between distant Penicillium species. Two HTRs carried genes with functions involved in the utilization of cheese nutrients or competition and were found nearly identical in multiple strains and species of cheese-associated Penicillium fungi, indicating recent selective sweeps; they were experimentally associated with faster growth and greater competitiveness on cheese and contained genes highly expressed in the early stage of cheese maturation.

We also used population genomics to reconstruct the evolutionary history of Penicillium roqueforti. Four populations were identified, including two containing only cheese strains (one corresponding to the emblematic Roquefort “protected designation of origin” strains), and two non-cheese populations including silage and food-spoiling strains. Approximate Bayesian computation analyses indicated that the two cheese populations were derived from independent domestication events. The non-Roquefort population had experienced a stronger genetic bottleneck and displayed greater fitness for traits related to industrial cheese maturation, such as greater lipolysis, cheese cavity colonization and salt tolerance. It probably originated from the industrial selection of a single clonal lineage and is used worldwide for the production of all types of blue cheese other than Roquefort. The Roquefort population resulted from a softer domestication event, probably due to the ancient use of different strains across multiple farms, with possible selection for slower growth before the invention of refrigeration and for greater spore production on the traditional multiplication medium (bread). We detected genomic regions affected by recent positive selection and genomic islands specific to one of the cheese populations, some of which corresponded to putative horizontal gene transfer events. This study sheds light on the processes of adaptation to rapid environmental changes, has industrial implications and raises questions about the conservation of genetic resources.

• Lundi 28 mai 2018 - - Salle de réunion 142, bâtiment 210
Zhanwu Dai
(INRA, UMR EGFV, Centre Inra de Nouvelle-Aquitaine-Bordeaux )
Reporté à une date ultérieure
• Lundi 14 mai 2018 - - Salle de réunion 142, bâtiment 210
Elie Desmond-Le Quéméner
(INRA, UR 050 LBE)
Séminaire repoussé à une date ultérieure
• Lundi 23 avril 2018 - - Salle de réunion 142, bâtiment 210
Victor Picheny
(INRA, MIA Toulouse)
Séminaire reporté à une date ultérieure
• Lundi 9 avril 2018 - - Salle de réunion 142, bâtiment 210
Andreas Dräger
(University of Tubingen, Applied Bioinformatics Group)
TBA
• Lundi 26 mars 2018 - - Salle de réunion 142, bâtiment 210
Julie Josse
(École Polytechnique, CMAP)
Distributed Multi-Level Matrix Completion for Medical Databases

Gathering the information contained in the databases of several hospitals is a step toward personalized medical care as it increases the chances of finding similar patient profiles and therefore provinding them better treatment. However, there are technical (computations and storage issues) and social barriers (privacy concerns) to the aggregation of medical data. Both obstacles can be overcome by turning to distributed computations so that hospitals only share some intermediate results instead of the raw data. As it is often the case, the medical databases are incomplete. One aim of the project is to impute the data of one hospital using the data of the other hospitals. This could also be an incentive to encourage the hospitals to participate in the project. In this talk, we will describe a single imputation method for multi-level (hierarchical) data that can be used to impute both quantitative, categorical and mixed data. This method is based on multi-level simultaneous component analysis (MLSCA) which basically decomposes the variability in both a between and within (hospitals) variability and performs a SVD on each part. The imputation method can be seen as an extension of matrix completion methods. The methods and their distributed versions are implemented in an R package.

• Lundi 12 mars 2018 - - Salle de réunion 142, bâtiment 210
Marie-Laure Martin-Magniette
(AgroParisTech-INRA, UMR 518 MIA / IPS2)
Modèles de mélange gaussiens et de graphes pour mieux comprendre la réponse aux stress de la plante modèle Arabidopsis
Les données transcriptomiques sont la source la plus importante de données disponibles actuellement sur les organismes. Pour la plante modèle Arabidopsis, son transcriptome a pu être mesuré dès le début des années 2000 par des puces à ADN. Depuis 2010, nous avons entrepris de faire une étude globale de la réponse aux stress de la plante. Après une présentation du contexte biologique, je présenterai une analyse de coexpression de plusieurs catégories de stress réalisée à l'aide de mélanges gaussiens. Dans la seconde partie de l'exposé, je vous présenterai la construction d'un réseau de corégulation et comment l'étude de ce réseau avec un modèle de mélange de graphes (Stochastic Block Models) a permis de prédire la fonction de certains gènes mal annotés et d'identifier une voie de réponse aux stress.
• Lundi 12 mars 2018 - - Salle de réunion 142, bâtiment 210
El Houcine Bergou
(INRA MaIAGE et KAUST-VCC)
Random Direct Search Method for Unconstrained Smooth Minimization

In this work we consider the problem of unconstrained minimization of a smooth function in $R^n$ in a setting where only function evaluations are possible. We design a novel random direct search (RDS) method and analyze its complexity. At each iteration, RDS generates a random search direction according to a certain fixed probability law. Our assumptions on this law are very mild. For instance, we allow for the uniform distribution on the sphere and also distributions that concentrate all measure on a positive spanning set. Given a current iterate $x$, the objective function is compared at three points: $x$, $x+\alpha s$ and $x-\alpha s$, where $\alpha>0$ is a stepsize parameter and $s$ is the random search direction. The best of these three points is the next iterate. The complexity of RDS depends on the probability law via a simple characteristic closely related to the cosine measure which is used in the analysis of deterministic direct search (DDS) methods. Unlike in DDS, where $O(n)$ function evaluations must be performed in each iteration in the worst case, our random search method only requires two new function evaluations per iteration. Consequently, while DDS depends quadratically on $n$, our method depends linearly on $n$.

• Lundi 12 février 2018 - - Salle de réunion 142, bâtiment 210
Séminaire annulé
TBA
• Lundi 29 janvier 2018 - - Salle de réunion 142, bâtiment 210
(ETH Zurich, Institute of Molecular Systems Biology)
The Hidden costs of enzymatic catalysis
The existence of a trade-off between the biomass yield and growth rate of cells has been used to explain aerobic fermentation in cancer cells (Warburg effect), yeast cells (Crabtree effect) and in bacteria such as E. coli. This trade-off relies on the assumption that even though fermentation pathways produce 5-10 times less ATP per glucose, respiration requires so much more resources and is therefore inefficient when carbon is not limiting. Is this trade-off a universal constraint imposed by thermodynamics, or a coincidental feature of the specific enzyme kinetic parameters that evolved in these organisms? To answer this question we developed a new method called Enzyme-Flux Cost Minimization (EFCM) to model the costs of both respiration and fermentation (along with ~1000 other flux combinations called elementary flux modes). We find that the trade-off in E. coli is not universal and depends strongly on the availability of oxygen. This framework successfully predicts in vivo enzyme concentrations, and has applications in metabolic engineering where similar candidate pathways can be compared not just by their yields, but also by their costs.

• Lundi 15 janvier 2018 - - Salle de réunion 142, bâtiment 210
Nicolas Brunel
(ENSIIE, UEVE-CNRS UMR 8071 LaMME)
Optimal control and additive perturbations helps in estimating ill-posed and uncertain dynamical systems

Ordinary Differential Equations (ODE) are routinely calibrated on real data for estimating unknown parameters or for reverse-engineering of biological systems. Nevertheless, standard statistical technics can give disappointing results because of the complex relationship between parameters and states, that makes the corresponding estimation problem ill-posed. Moreover, ODE are mechanistic models that are prone to modelling errors, whose influences on inference are often neglected during statistical analysis. We propose a regularised estimation framework that consists in adding a perturbation to the original ODE. This perturbation facilitates data fitting and represents also possible model misspecifications, so that parameter estimation is done by solving a trade-off between data fidelity and model fidelity. We show that the underlying optimisation problem is an optimal control problem, that can be solved by the Pontryagin Maximum Principle for general nonlinear and partially observed ODE. The same methodology can be used for the joint estimation of finite and time-varying parameters. We show, in the case of a well-specified parametric model, that our estimator is consistent and reaches the root-$n$ rate. Numerical experiments considering various sources of model misspecifications shows that Tracking still furnish accurate estimates.

In a second part of the talk, we present a novel algorithm that deals directly with the log-likelihood of the observations and avoid the use of a nonparametric proxy. The inference still uses a perturbed model that is estimated based on the discretisation in time and of the perturbation function (piecewise constant). We focus on linear ODEs and show that we can compute efficiently the parameter estimator by dynamic programming.

The computational speed enables to address the estimation of (relatively) high-dimensional systems, and to implement standard computationally intensive procedure such as cross-validation and bootstrap. Finally, we show that we can use our approach to estimate nonlinear ODEs used for modelling bacteria interactions in microbiome.

• Lundi 18 décembre 2017 - - Salle de réunion 142, bâtiment 210
Jessica Tressou
(AgroParisTech-INRA, UMR 518 MIA)
Principes du bootstrap en iid et pour les chaînes de Markov : application aux valeurs extrêmes
Après avoir présenté brièvement le principe du bootstrap dans le cadre indépendant et identiquement distribué et montré sur un exemple ses limites dans le cas des valeurs extrêmes, je montrerai comment on peut définir une procédure de bootstrap régénératif sur des chaines de Markov. Cette méthode, développée par Patrice Bertail et Stéphane Clémençon dans un article publié dans Bernoulli en 2006, a ensuite été appliquée à plusieurs types d'estimateurs (U-statistiques, R-statistiques, L-statistiques).
Je présenterai plus en détails les applications en lien avec les valeurs extrêmes.

Bertail P, Clémençon S, Tressou J, 2009. Extreme value statistics for Markov chains via the (pseudo-)regenerative method. Extremes, 12(4), 327-360.
Bertail P, Clémençon S, Tressou J, 2013. Regenerative Block-Bootstrap Confidence Intervals for Tails and Extremal Indexes. Electronic Journal of Statistics, 7, 1224-1248.

### 2017

• Lundi 4 décembre 2017 - - Salle de réunion 142, bâtiment 210
Corinne Vacher
(Université de Bordeaux - INRA, UMR Biogeco)
La phyllosphère: une jungle microbienne à l'interface plante-climat

Les plantes interagissent avec des microorganismes tout au long de leur cycle de vie. Ces communautés microbiennes modulent la résistance des plantes contre de multiples stress, influencent leur capacité à se reproduire et contribuent au fonctionnement des écosystèmes. Les communautés microbiennes de la phyllosphère, qui sont à l'interface entre la plante et l'atmosphère, pourraient jouer un rôle non-négligeable dans la réponse des plantes au changement climatique. Une meilleure prise en compte de ces communautés, voire leur pilotage, pourrait permettre de renforcer la résilience des écosystèmes. Afin de prédire la dynamique et l'évolution des communautés microbiennes de la phyllosphère, il est nécessaire de disposer d'un cadre conceptuel qui intègre la plante, l'atmosphère et les microorganismes qui se développent à leur interface. En s'appuyant sur la théorie de Mark Vellend (2010), nous avons proposé d'analyser la structure de ces communautés à l'aide de quatre processus: la sélection, la diversification évolutive, la dispersion et la dérive. La sélection, qui est exercée par les traits et le microclimat foliaires et par les interactions entre microorganismes, filtre parmi tous les microorganismes présents sur les feuilles ceux qui parviendront à y survivre. La diversification évolutive génère des microorganismes possédant de nouvelles fonctions, tandis que la dispersion permet à certains microorganismes d'atteindre l'habitat foliaire. La dérive écologique, quant à elle, crée des variations aléatoires dans les abondances microbiennes. Si de nombreuses études démontrent l'influence de ces quatre processus, il reste encore de nombreux défis à relever. L'un d'entre eux, que j'illustrerai plus en détail, est de parvenir à déchiffrer les réseaux d'interactions entre les microorganismes à partir de données de séquençage haut-débit et d'évaluer l'influence de ces réseaux sur la santé de la plante.

Travail joint avec Charlie PAUVERT, Arndt HAMPE, Annabel PORTE, Ursula SAUER, Stéphane COMPANT et Cindy MORRIS et basé sur les publications

Vacher, C., Hampe, A., Porté, A.J., Sauer, U., Compant, S., Morris, C.E. 2016. The phyllosphere: microbial jungle at the plant-climate interface. Annual Review of Ecology, Evolution, and Systematics, 47: 1-24

Stéphane A.P. Derocles, David A Bohan, Alex J. Dumbrell, James J.N. Kitson, François Massol, Charlie Pauvert, Manuel Plantegenest, Corinne Vacher, Darren M. Evans. Biomonitoring for the 21st century: integrating Next Generation Sequencing with Ecological Network Analysis. Submitted to Advances in Ecological Research.

• Lundi 20 novembre 2017 - - Salle de réunion 142, bâtiment 210
Marco Bellinzoni
(Institut Pasteur, Unité de Microbiologie Structurale )
Unusual features in actinobacterial α-ketoacid dehydrogenase complexes: challenging old beliefs
Pyruvate dehydrogenase (PDH) and α-ketoglutarate dehydrogenase (KDH) are conserved, tripartite enzyme complexes that carry out essential reactions in central metabolism. Despite their overall conservation, an increasing amount of evidence points to the presence of unique features in the structure and regulation of the actinobacterial versions of these enzymes. I will resume our ongoing studies on the components of a mixed PDH/KDH supercomplex from the species Mycobacterium smegmatis and Corynebacterium glutamicum, and show how our findings challenge old paradigms about the architecture and the regulation of these fascinating enzymatic machines.
• Lundi 6 novembre 2017 - - Salle de réunion 142, bâtiment 210
Sylvain Billiard
(Université de Lille - CNRS, Unité Evo-Eco-Paléo)
Rejuvenating functional responses with the renewal theory

How fast do interactions occur between individuals is central in ecology. Functional responses are classically used to describe the number of predation, mating, competition, etc. in a given timeframe. Hundreds of different forms of functional responses have been proposed in the ecological and mathematical literature. It is well known that this form can dramatically affect the stability and dynamics of populations. Yet, the forms given to functional responses are generally poorly justified from the individual point of view, most ecologists generally adopting a phenomenological approach, in a purely deterministic framework. Here, we propose a novel and original stochastic approach based on the renewal theory. We show how it is possible to derive classical and novel functional responses from the behaviors of the individuals by modelling the time taken by all activities that must be fulfilled for an interaction to be successful. We show how a stochastic approximation of the functional responses can be obtained thanks to the renewal theory. We give applications of our theoretical framework and discuss the importance of interactions as a source of stochasticity in ecological models.

• Lundi 16 octobre 2017 - - Salle de réunion 142, bâtiment 210
séance annulée
-
• Lundi 2 octobre 2017 - - Salle de réunion 142, bâtiment 210
Pierre Latouche
(Université Paris 1, Laboratoire SAMM)
Multiple change points detection and clustering in dynamic networks

The increasing amount of data stored in form of dynamic interactions between actors necessitates the use of methodologies to automatically extract relevant information. The interactions can be represented by dynamic networks in which most existing methods look for clusters of vertices to summarize the data. In this work, a new framework is proposed in order to cluster the vertices while detecting change points in the intensities of the interactions. These change points are key in the understanding of the temporal interactions. The model used involves non-homogeneous Poisson point processes with cluster dependent piecewise constant intensity functions and common discontinuity points.  A variational expectation maximization algorithm is derived for inference. We show that the pruned exact linear time method, originally developed for change points detection in univariate time series, can be considered for the maximization step. This allows the detection of both the number of change points  and their location.  Experiments on artificial and real datasets are carried out and the proposed approach is compared with related methods.

• Lundi 18 septembre 2017 - - Salle de réunion 142, bâtiment 210
Wolfram Liebermeister
(INRA, MaIAGE)
Enzyme and flux cost functions for metabolic modelling

Metabolic fluxes in cells are sometimes assumed to reflect an economical use of enzymes. To apply this principle of "minimal enzyme cost" and to study its consequences, I consider two types of computational metabolic models: models in which fluxes are given and metabolite levels are chosen to minimise enzyme cost; and models in which the fluxes themselves are optimised. In the first case, optimal enzyme and metabolite levels can be computed by solving a convex optimization problem, and connections between enzyme cost and reaction thermodynamics become very apparent. In the second case, we obtain a nonlinear version of flux balance analysis, a method commonly used in flux prediction. Optimal metabolic fluxes can be found be screening the elementary flux modes, a well-defined set of maximally sparse flux distributions. Altogether, we obtain a tractable method for predicting optimal fluxes, metabolite levels, and enzyme levels in kinetic models of central metabolism.

• Lundi 26 juin 2017 - - Salle de réunion 142, bâtiment 210
Annulé (AG du département MIA)
TBA
• Lundi 12 juin 2017 - - Salle de réunion 142, bâtiment 210
Christophe Biernacki
(Université de Lille 1, Modal, INRIA Lille Nord-Europe)
About two disinherited sides of statistics: data units and computational saving
Statistics often focuses on designing models, theoretical estimates, related algorithms and model selection. However, some sides of this whole process are somewhat not really tackled by statisticians, leaving the practitioner with some empirically choices, thus poor theoretical warranties. In this context, we identify two situations of interest which are firstly the data unit definition, in case where the practitioner hesitates between few, and secondly the way of saving computational time, for instance by early stopping rules of some estimating algorithms.
In the first case (data units), we highlight that it is possible to embed data unit selection into a classical model selection principle. We introduce the problem in a regression context before to focus on the model-based clustering and co-clustering context, for data of different kinds (continuous, categorical). It is a joint work with Alexandre Lourme (University of Bordeaux).
In the second case (computational saving), we recall that an increasingly recurrent statistical question is to design a trade-off between estimate accuracy and computation time. Most estimates practically arise from algorithmic processes aiming at optimizing some standard, but usually only asymptotically relevant, criteria. Thus, the quality of the resulting estimate is a function of both the iteration number and also the involved sample size. We focus on estimating an early stopping time of a gradient descent estimation process aiming at maximizing the likelihood in the simplified context of linear regression (with some discussion in other contexts). It is a joint work with Alain Célisse and Maxime Brunin (University of Lille and Inria, both).

• Lundi 29 mai 2017 - - Salle de réunion 142, bâtiment 210
Jean-Christophe Palauqui
(Institut Jean-Pierre Bourgin, UMR1318 INRA-AgroParisTech)
Etude descriptive et modélisation du développement embryonnaire chez Arabidopsis thaliana
L’acquisition des grands plans d’organisation d’une plante s’opère au cours de l’embryogenèse précoce. Ce processus, très stéréotypé chez Arabidopsis, conduit à la mise en place d’un organisme pluricellulaire, permettant d’assurer les fonctions essentielles après germination de la graine. Au travers d’une étude descriptive 3D de l’organisation des plans de divisions, qui retrace l’historique des événements de divisions cellulaires, nous développons une approche de modélisation de la division cellulaire basée sur la géométrie de la cellule.

• Lundi 24 avril 2017 - - Salle de réunion 142, bâtiment 210
Vincent Briane
(INRIA, IRISA Rennes)
An adaptive statistical test to detect non Brownian diffusion from particle trajectories

(This is a joint work with the supervisors of my PhD Myriam Vimond and Charles Kervrann.)

Assessing the dynamics of particles inside live cell is of paramount interest to understand cell mechanisms. In this presentation, we assume that the motions of particles follow a certain class of random process: the diffusion processes. Our contribution is to propose a statistical method able to classify the motion of the observed trajectories into three groups: subdiffusion (the particle is trapped in a confined domain or moves in a crowded area), superdiffusion (the particle moves in a specific direction thanks to a molecular motor) and free diffusion (namely Brownian motion). This method is an alternative to Mean Square Displacement (MSD) analysis. We assess our procedure on both simulations and real cases.

• Lundi 15 mai 2017 - - Salle de réunion 142, bâtiment 210
Melina Gallopin
(UPSay, I2BC)
Nonlinear network-based quantitative trait prediction from transcriptomic data

Quantitatively predicting phenotype variables by the expression changes in a set of candidate genes is of great interest in molecular biology but it is also a challenging task for several reasons. First, the collected biological observations might be heterogeneous and correspond to different biological mechanisms. Secondly, the gene expression variables used to predict the phenotype are potentially highly correlated since genes interact through unknown regulatory networks. In this talk, we present a novel approach designed to predict quantitative traits from transcriptomic data, taking into account the heterogeneity in biological observations and the hidden gene regulatory networks. The proposed model performs well on prediction but it is also fully model-based, which facilitates the downstream biological interpretation. The model provides clusters of individuals based on the relation between gene expression data and the phenotype, and also leads to infer a gene regulatory network specific for each cluster of individuals.
We perform numerical simulations to demonstrate that our model is competitive with other prediction models, and we demonstrate the predictive performance and the interpretability of our model to predict olfactory behavior from transcriptomic data on real data from Drosophila Melanogaster Genetic Reference Panel (DGRP).

• Lundi 20 mars 2017 - - Salle de réunion 142, bâtiment 210
Simon Cauchemez
(Institut Pasteur, Unité Modélisation mathématique des maladies infectieuses)
Statistical analysis and modelling of epidemics

Looking at a number of examples from recent outbreaks such as Zika in the Americas, Ebola in West Africa or MERS-CoV in the Middle, I will discuss the challenges associated with the analysis of epidemic data as well as the role modelling can play in the management of these epidemics.

• Lundi 6 mars 2017 - - Salle de réunion 142, bâtiment 210
Séminaire annulé
-
• Lundi 20 février 2017 - - Salle de réunion 142, bâtiment 210
Coralie Fritsch
(Institut Elie Cartan Lorraine, Inria, équipe Tosca)
Dynamique adaptative de populations bactériennes dans un bioréacteur

Je présenterai une approche numérique pour déterminer la possibilité d'invasion de populations bactériennes mutantes dans un bioréacteur. Pour cela, j'introduirai tout d'abord un modèle stochastique individu-centré et un modèle déterministe EDP de croissance-fragmentation. Je présenterai le lien entre les fitness d'invasion de ces deux modèles, définies respectivement par la probabilité de survie de la population et la valeur propre principale d'un certain opérateur. Je donnerai ensuite des résultats sur les variations de ces fitness d'invasion en fonction d'un paramètre environnemental du modèle (agissant sur la croissance et la division des bactéries). Enfin, j'appliquerai ces résultats à un modèle de bioréacteur afin de décrire une méthode numérique pour l'étude de la dynamique adaptative de la population bactérienne.

• Lundi 13 février 2017 - - Salle de réunion 142, bâtiment 210
Vyacheslav Kungurtsev
(Czech Technical University in Prague, Department of Computer Science)
Nonlinear Optimization, Algorithms for Problems Satisfying Weak Geometric Assumptions, and Problems Arising in Big Data

In this talk I will present an introduction to the foundations of mathematical programming and optimization theory and review my work on algorithms provably convergent under weak problem assumptions and parallel algorithms suitable for large scale big data machine learning applications. Nonlinear continuous optimization is a mature and active field shown to be effective in solving problems arising from a myriad of applications, including engineering and data science. How wide a class of problems a particular algorithm is capable of solving depends on the algorithm formulation being able to take advantage of problem structure and geometric properties. Algorithms that converge reliably and quickly for a broad range of constrained medium-scale problems have been developed recently, advancing the state of the art. The age of big data necessitates the use of parallel architectures in the computation of an algorithm''s procedural steps. I will present a framework for using problem structure to quickly and reliably solve a large scale nonconvex optimization problem as would arise in machine learning.

• Lundi 30 janvier 2017 - - Salle de réunion 142, bâtiment 210
Kevin Cohen
(University of Colorado, School of Medicine, Biomedical Text Mining Group, Computational Bioscience Program, USA)
Synthetic lethal screen reranking with natural language processing

High-throughput assays are an experimental paradigm that has revolutionized biology in recent decades.  They are very powerful, but produce large numbers of false positives that impede the efficient analysis of experimental data.  This talk will discuss the use of natural language processing to deal with the false positive problem, focusing on a type of high-throughput assay called a synthetic lethal screen.

• Lundi 16 Janvier 2017 - - Salle de réunion 142, bâtiment 210
Etienne Birmelé
(Paris Descartes, MAP5)
Étude des perturbations des régulations géniques dans le cancer de la vessie

Certains types de cancer de la vessie se comportent de façon très similaires à des cellules saines en train de proliférer ou de se différencier, laissant à penser que la tumeur utilise principalement le réseau de régulation préexistant. Le projet LIONS, en collaboration avec les universités d'Evry, Montpellier et York, ainsi qu'avec l'institut Curie, cherche à déterminer quels sont les facteurs de transcription (TF) clés de la tumorigénèse, c'est-à-dire dont une altération dans le mécanisme de régulation rend le comportement cellulaire pathologique.

D'un point de vue statistique, cette notion, différente de celle d'expression différentielle, nécessite de 1) disposer d'un réseau de référence correspondant aux cellules saines 2) établir un score de dérégulation indiquant quels gènes ont un comportement anormal dans la tumeur 3) déterminer les jeux minimaux de TF expliquant ces comportement anormaux. L'exposé développera les pistes étudiées actuellement pour chacun de ces points.

• Lundi 21 novembre 2016 - - Salle de réunion 142, bâtiment 210
Olivier Martin
(AgroParisTech-INRA, UMR 791 MOSAR)
Modéliser la dynamique des phénotypes à l'échelle de la vie de l'animal : du système biologique au système d'élevage

Le couplage de modèles dynamiques est illustré à travers un exemple appliqué aux performances productives et reproductives des vaches.Ce travail s'inscrit dans le cadre du projet européen PROLIFIC et aborde la problématique générale de la fertilité des troupeaux bovins laitiers.

Un modèle des performances à l'échelle de la vie de la vache est d'abord brièvement présenté (GARUNS : Martin and Sauvant, 2010ab). Ce modèle est lui-même le produit d'un couplage d'un modèle théorique de la dynamique des priorités entre fonctions vitales et d'un modèle de partition de l'énergie. Dans le modèle GARUNS, il n'y a pas de régulation de la reproduction et les dates d'insemination associées à chaque cycle de reproduction sont contrôlées par des paramètres fixes. Ce modèle du système animal n'intègre donc pas de variabilité des performances de reproduction qui découle en particulier des anomalies de cyclicité et des échecs d'insémination.

Un modèle du système reproducteur est ensuite présenté (RPM : Martin et al., 2012). Ce modèle repose sur un cadre conceptuel générique de représentation du fonctionnement du système reproducteur. Dans ce modèle, des unités biologiques, comme l'ovaire, l'uterus ou l'embryon, intéragissent par des signaux hormonaux qui régulent leur dynamique de fonctionnement. Selon leur état de compétence, ces unités sont susceptibles de produire un signal ou de réagir à un signal en changeant d'état de compétence. Chaque unité biologique est ainsi décrite à travers des cycles d'états de compétence dont la dynamique est régulée par la signalisation hormonale. La dynamique d'ensemble du système reproducteur émerge de la dynamique des intéractions entre les unités biologiques. Dans le cadre du projet PROLIFIC, deux modèles ont été développés sur la base de ce cadre conceptuel: une version dite "heavy", conçue pour intégrer les connaissances sur les mécanismes physiologiques sous-jacents et une version dite "lite", conçue pour le couplage avec le modèle GARUNS, permettant de simuler la variabilité des cycles de reproduction et opérationnelle pour des simulations rapides.

Un modèle du système d'élevage est brièvement décrit (BSM : Friggens et al., unpub.). A l'échelle du troupeau, ce modèle contrôle les individus vaches représentées explicitement par des versions du couple GARUNS-RPMlite. Ce modèle simule les pratiques d'élevage en matière d'alimentation, de détection d'oestrus, d'insémination, de réforme et de sélection génétique. En pratique, pour le couplage entre GARUNS et RPMlite à l'échelle d'un individu, BSM fournit le temps d'insémination au modèle GARUNS, décidé sur la base de la dynamique d'estrus produite par RPMlite et de la stratégie de reproduction fixée.

Le couplage des trois modèles est ensuite abordé. Cette exemple correspond au couplage de modèles basés sur des concepts similaires (priorié vs états de compétence), avec des pas de temps différents (d vs h) et dans un contexte du couplage d'un modèle avec un modèle pré-existant. Le modèle GARUNS produit une dynamique de performances productives, en particulier le bilan énergétique et le niveau de turnover du métabolisme énergétique, qui régule RPMlite. RPMlite produit une signalisation hormonale (potentiellement lue et interprétée par BSM) et fournit les temps de conception au modèle GARUNS. Le modèle GARUNS enclenche alors un cycle de reproduction enchaînant une gestation et une lactation (ou éventuellement un avortement qui interromp le cycle), ce qui modifie la dynamique du métabolisme énergétique. Le couplage repose ainsi sur une boucle entre les modèles GARUNS et RPMlite.

Des résultats de simulations sont enfin présentés pour illustrer la variabilité des performances de reproduction produites par le couplage GARUNS+RPMlite.

### 2016

• Lundi 5 décembre 2016 - - Salle de réunion 142, bâtiment 210
Michael Blum
(Univ. J. Fourier & CNRS, Laboratoire TIMC-IMAG, Grenoble)
Détection d'outliers en grande dimension: application à la génomique des populations

Notre objectif est de détecter quelles sont les variables outliers dans des jeux de données de grande dimension. Les méthodes de détection d'outliers sont utilisées en génomique pour détecter quels sont les gènes qui permettent aux individus de s’adapter à leur environnement. Nous proposons une approche rapide basée sur l’analyse en composantes principales. Le principe est de considérer comme gènes candidats ceux qui sont excessivement corrélés avec les composantes principales. Pour ce faire, nous calculons pour chaque marqueur génétique un vecteur qui mesure l’association entre un marqueur génétique et les composantes principales. Nous utilisons ensuite la distance de Mahalanobis pour trouver quels sont les vecteurs atypiques. En utilisant un jeu de données humains comprenant un peu plus d’un millier d’individus et des centaines de milliers de marqueurs génétiques, nous montrons que cette approche permet de détecter des exemples d’adaptation biologique chez l’homme.

• Lundi 7 novembre 2016 - - Salle de réunion 142, bâtiment 210
Kevin Cohen
(University of Colorado, School of Medicine, Biomedical Text Mining Group)
Annulé
• Lundi 17 octobre 2016 - - Salle de réunion 142, bâtiment 210
Florence Débarre
(Collège de France, CIRB CNRS UMR 7241)
Evolution in spatially heterogeneous environments

Understanding the links between the diversity of habitats and biodiversity is a core topic in Ecology, Evolution and Conservation Biology; mathematical and computational models can help provide qualitative answers to this question. During my talk, I will present some ecological (short-term) and evolutionary (long-term) consequences of spatial structuring and environmental heterogeneities. I will start with the example of resistance to treatments, and will show how spatial heterogeneities can help limit the spread of resistance. Then I will move on to a more ecological model and will present results on the evolution of specialist and generalist strategies in a spatially heterogeneous environment.

• Lundi 26 septembre 2016 - - Salle de réunion 142, bâtiment 210
Tabea Rebafka
(UPMC, LPMA)
Estimation et clustering dans un modèle de processus de Poisson semiparamétrique à blocs stochastiques pour des réseaux d’interaction longitudinaux

In this work, we introduce a Poisson process stochastic block model for recurrent interaction events, where each individual belongs to a latent group and interactions between two individuals follow a conditional inhomogeneous Poisson process whose intensity is driven by the individuals’ latent groups. The model is semiparametric as the intensities per group pair are modeled in a nonparametric way. First an identifiability result on the weights of the latent groups and the nonparametric intensities is established. Then we propose an estimation procedure, relying on a semi parametric version of a variational expectation-maximization algorithm. Two different versions of the method are proposed, using either histogram-type (with an adaptive choice of the partition size) or kernel intensity estimators. We also propose an integrated classification likelihood criterion to select the number of latent groups. Asymptotic consistency results are then explored, both for the estimators of the cumulative intensities per group pair and for the kernel procedures that estimate the intensities per group pair. Finally, we carry out synthetic experiments and analyse several real datasets to illustrate the strengths and weaknesses of our approach.
This is joint work with Catherine Matias et Fanny Villers.

• Lundi 12 Septembre 2016 - - Salle de réunion 142, bâtiment 210
Ludovic Cottret
(INRA-CNRS, LIPM)
Analyse de la robustesse phénotypique d'une bactérie phytopathogène par intégration du réseau métabolique et du réseau de régulation

Dans l'analyse du réseau métabolique, la robustesse d'un phénotype est communément définie comme la capacité du métabolisme à maintenir ce phénotype malgré des perturbations génétiques ou environnementales. Plusieurs éléments peuvent être à l'origine de la robustesse phénotypique : la versatilité, i.e. la capacité du système à fonctionner à partir de différents nutriments; la redondance fonctionnelle comprenant la redondance génétique et les voies métaboliques alternatives; et enfin le contrôle du système qui intervient pour capter et compenser efficacement les perturbations.

Nous nous sommes intéressés à l'analyse de la robustesse phénotypique chez une bactérie phytopathogène, Ralstonia solanacearum. Plus particulièrement, nous avons tenté de prédire l'influence du réseau de régulation de la virulence sur la robustesse phénotypique. Pour cela, nous avons d'abord effectué une reconstruction de haute qualité du réseau métabolique et du réseau de régulation de la virulence grâce à une suite d'outils automatiques et semi automatiques. Ensuite, nous avons développé une librairie Java, appelée FlexFlux, destinée à l'analyse de balance des flux (FBA). L'originalité de FlexFlux est d'intégrer de façon native le réseau de régulation et le réseau de métabolique dans chacune de ces fonctions. Nous verrons enfin comment nous avons utilisé FlexFlux pour mesurer la robustesse de plusieurs phénotypes (liés ou non à la virulence) et l'influence du réseau de régulation de la virulence sur celle-ci.

• Lundi 12 septembre 2016 - - Salle de réunion 142, bâtiment 210
Catherine Larédo
(INRA, MaIAGE)
Estimation paramétrique pour des équations différentielles stochastiques à effets mixtes à partir de données longitudinales discrétisées.

Les équations différentielles stochastiques fournissent un cadre naturel pour modéliser la variabilité intrinsèque inhérente à de nombreux processus physiques à temps continu.Quand ces processus sont observés sur plusieurs individus ou unités expérimentales, les équations différentielles stochastiques à effets mixtes (SDEME) permettent de quantifier simultanément la variabilité intrinsèque (variabilité intra) et la variabilité entre individus (variabilité inter). Ces dynamiques modélisées par des processus à temps continu sont généralement observées avec un certain pas de temps (données discrétisées). Du fait de la difficulté à étudier la vraisemblance, faire l’inférence à partir d’observations discrétisées de SDEME est un problème ouvert d’un point de vue théorique pour des modèles généraux de SDEME. Nous étudions ici des cas pour lesquels on dispose d’approximations explicites de la vraisemblance.

Travail en collaboration avec Maud Delattre (AgroParisTech, France) et Valentine Genon-Catalot
(UMR CNRS 8145, Laboratoire MAP5, Université Paris Descartes, Sorbonne Paris Cité, France).

• Lundi 20 juin 2016 - - Salle de réunion 142, bâtiment 210
Julien Chiquet
(AgroParisTech-INRA, UMR 518 MIA)
Fast tree inference with weighted fusion penalties

Given a data set with many features observed in a large number of conditions, it is desirable to fuse and aggregate conditions which are similar to ease the interpretation and extract the main characteristics of the data. This paper presents a multidimensional fusion penalty framework to address this question when the number of conditions is large. If the fusion penalty is encoded by an ℓq-norm, we prove for uniform weights that the path of solutions is a tree which is suitable for interpretability. For the ℓ1 and ℓ-norms, the path is piecewise linear and we derive a homotopy algorithm to recover exactly the whole tree structure. For weighted ℓ1-fusion penalties, we demonstrate that distance-decreasing weights lead to balanced tree structures. For a subclass of these weights that we call “exponentially adaptive”, we derive an O(n log(n)) homotopy algorithm and we prove an asymptotic oracle property. This guarantees that we recover the underlying structure of the data efficiently both from a statistical and a computational point of view. We provide a fast implementation of the homotopy algorithm for the single feature case, as well as an efficient embedded cross-validation procedure that takes advantage of the tree structure of the path of solutions. Our proposal outperforms its competing procedures on simulations both in terms of timings and prediction accuracy. As an example we consider phenotypic data: given one or several traits, we reconstruct a balanced tree structure and assess its agreement with the known taxonomy.

• Lundi 23 mai 2016 - - Salle de réunion 142, bâtiment 210
Annulé
TBA
• Lundi 18 avril 2016 - - Salle de réunion 142, bâtiment 210
Reporté
TBA
• Lundi 4 avril 2016 - - Salle de réunion 142, bâtiment 210
Argyris Kalogeratos
(ENS Cachan, CMLA)
Algorithmes efficaces pour contenir des processus épidémiques sur réseaux à l'aide de ressources d'efficacité limitée / Suppressing epidemics on arbitrary networks using treatment resources of limited efficiency

Résumé : Dans de nombreuses situations réelles, il est essentiel de supprimer un processus de diffusion indésirable (virus, information, comportements, etc.) en temps réel. Cette exposé proposera des méthodes pour l'allocation dynamique de ressources pour des épidémies de type SIS (en temps continu) à l'aide d'un budget de ressources limité à disposition des autorités.
Dans cet exposé, nous montrerons que la structure macroscopique et microscopique du réseau joue un rôle clé dans l'explication de ces phénomènes de propagation et deux stratégies seront présentées : a) une approche simple et focalisée sur l'évolution court-terme du processus, et b) une approche plus sophistiquée qui utilise un ordre de priorité (précalculée avant l'épidémie) spécifiant le déroulement de la stratégie de guérison.

Abstract: In many real-life situations, it is critical to dynamically suppress or remove an undesired diffusion process (viruses, information, behaviors, etc.). The talk will present a framework for Dynamic Resource Allocation (DRA) assuming a continuous-time SIS epidemic model, and that a budget of treatment resources of limited efficiency are at the disposal of authorities.
Special emphasis will be given on the macroscopic and microscopic (or local) properties of the network structure for the problem and two strategies will be presented that fall in this framework: a) a simple yet effective greedy approach, and b) a more sophisticated one that uses a precomputed priority plan of how the healing strategy should proceed on a specific network.

• Lundi 21 mars 2016 - - Salle de réunion 142, bâtiment 210
Avner Bar-Hen
(Université Paris Descartes - CNRS, Laboratoire MAP5, UMR 8145)
Détection de cluster spatiale en utilisant la distance au plus proche voisin

Afin de caractériser l'impact des processus écologiques sur la distribution spatiale des espèces d'arbres, nous présentons une méthode pour détecter des clusters de points. Notre méthode est basée sur une transformation itérative de la distance entre les points. Notre approche a l'avantage d'être indépendante d'une forme arbitraire de cluster et permet un ajustement pour les covariables. La comparaison de la distance observée entre points avec un processus de référence conduit à une classification hiérarchique des clusters. Le choix du nombre optimal de clusters est effectuée en utilisant la statistique de Gap. Notre procédure est illustrée sur une répartition spatiale des espèces de la Dicorynia en Guyane française.

• Lundi 7 mars 2016 - - Salle de réunion 142, bâtiment 210
Marie Suez
(UPMC, IBPS / INRA, MaIAGE)
Diversité génétique des populations de cerfs élaphe (Cervus elaphus) en Île-de-France, en liaison avec l'anthropisation.

Au cours des 60 dernières années le développement des infrastructures de transports (Autoroutes, Lignes Grandes Vitesse, Nationales doubles voies) a fragmenté l’habitat des cerfs élaphe (Cervus elaphus). D’après les observations naturalistes, cette anthropisation a causé la fragmentation de deux populations géographiques existantes en sept dans la partie Sud et d’une en trois dans la partie Nord.

Afin d’évaluer l’impact de ces infrastructures sur la structuration génétique de ces populations de cerfs, nous avons échantillonné chacune de ces populations grâce à la coopération de trois fédérations de chasse. Le cours laps de temps écoulé depuis la construction de ces infrastructures nous a conduits à choisir comme marqueurs moléculaires les microsatellites, efficaces dans l’inférence d’évènements récents. Les nouvelles techniques de séquençages (NGS) permettent d’obtenir d’importants jeux de données rapidement, nous avons choisi d’utiliser ces méthodes de séquençage pour obtenir nos données. Aucun logiciel ne permettant de traiter les données de séquençage haut débit des microsatellites pour des espèces dont le génome n’est pas complètement séquencé, nous avons alors réalisé un programme, MicNeSs qui permet de génotyper rapidement et objectivement (sans intervention humaine) un grand nombre d’individus et de locus. Nous avons utilisé MicNeSs pour génotyper 345 individus pour 17 locus microsatellites. A partir de ce jeu de données, nous avons montré l’existence d’une structuration génétique des populations de cerfs élaphe en Île-de-France en liaison avec les infrastructures routières et ferroviaires. Nous avons mis en évidence un effet fort des jumelages autoroutes/LGV et une efficacité différentielle des passages grande faune de 2ème et 3ème génération sur les populations de cerfs élaphe en Île-de-France.

• Lundi 22 février 2016 - - Salle de réunion 142, bâtiment 210
Youssef Diouane
(ISAE - SupAéro)
Globally convergent evolution strategies with application to an Earth imaging problem in geophysics.

In recent years, there has been significant and growing interest in Derivative-Free Optimization (DFO). This field can be divided into two categories: deterministic and stochastic. Despite addressing the same problem domain, only few interactions between the two DFO categories were established in the existing literature. In this thesis, we attempt to bridge this gap by showing how ideas from deterministic DFO can improve the efficiency and the rigorousness of one of the most successful class of stochastic algorithms, known as Evolution Strategies (ES’s). We propose to equip a class of ES’s with known techniques from deterministic DFO. The modified ES’s achieve rigorously a form of global convergence under reasonable assumptions. By global convergence, we mean convergence to first-order stationary points independently of the starting point. The modified ES’s are extended to handle general constrained optimization problems. Furthermore, we show how to significantly improve the numerical performance of ES’s by incorporating a search step at the beginning of each iteration. In this step, we build a quadratic model using the points where the objective function has been previously evaluated. Motivated by the recent growth of high performance computing resources and the parallel nature of ES’s, an application of our modified ES’s to Earth imaging geophysics problem is proposed. The obtained results provide a great improvement to known solutions of this problem.

• Jeudi 18 février 2016 - - Salle de réunion 142, bâtiment 210
Stefanie Widder
(Division of Computational Systems Biology, Univ. of Vienna)
(Self)-Organization of the human microbiota in health and disease

Central to understanding the behavior of microbial communities (MC) are microbial interactions and their organization. In my talk I will give two examples where community-wide interactions lead to complex behavior of the MC. Pathogenic microbiota cause chronic infections in the airways of cystic fibrosis patients. We show that organization into two competing communities and shifts in their interactions, as well as in their metabolic core processes are associated to a shift in the severity of the disease. Using network analysis and the keystone concept, we propose functional and taxonomic keystones as targets for novel drug development. The human gut microbiome is characterized by seemingly opposing trends: stability of a (functional) core community and pronounced variability throughout lifetime and between subjects. We explore self-organization as potential mechanism underlying these evidences. We use a modeling approach to analyze the time behavior of gut microbiota and find that the community stratifies into three sub-groups linked to lifetime and abundance. In time the gut community exhibits pink noise and scale-invariance, hallmarks for self-organization.

• Lundi 8 février 2016 - - Salle de réunion 142, bâtiment 210
Nicolas BOUSQUET
(EDF, R&D)
Estimer des indicateurs de risque par simulation de modèles complexes "boîte noire" en tirant parti de contraintes de forme (monotonie, convexité...), avec applications en aide à la décision

Les modèles boîte noire sont de plus nombreux dans les études d'impact et de gestion des ressources (industrielles, environnementales, etc.). Souvent déterministes, ils sont utilisés pour mener des simulations à partir d'entrées rendues stochastiques, car considérées incertaines par essence ou mal connues. Des indicateurs classiques d'aide à la décision en sortie des modèles sont des probabilités de dépassement, ou des quantiles. Ne pouvant entrer dans le modèle par des méthodes intrusives, de nombreuses techniques d'estimation par réduction de variance (par rapport à des approches de Monte Carlo classiques) de ces indicateurs sont maintenant disponibles. Cependant, elles nécessitent souvent des hypothèses de régularité qui ne peuvent être vérifiées (et sont fausses lorsque le phénomène modélisé subit des effets falaises de perte de continuité), et ont un coût de simulation potentiellement très élevé, qui interdit de les utiliser dans de nombreux cas concrets. C'est pourquoi des méthodes ont été très récemment développées pour pallier ces difficultés en tirant parti des contraintes (ou propriétés) de forme s'exerçant sur les sorties de tels modèles. Un cas important est celui de la monotonie. La convexité est aussi évoquée. L'exposé présentera la construction de telles méthodes, détaillera les outils théoriques nécessaires pour étudier le bien-fondé de l'estimation, et montrera des résultats théoriques et appliqués sur des cas industriels.

• Lundi 25 janvier 2016 - - Salle de réunion 142, bâtiment 210
Sophie DONNET
(AgroParisTech-INRA, UMR 518 MIA)
Bayesian estimation for multidimensional Hawkes processes

Multidimensional Hawkes processes are used to modelise multivariate neuron spike data. The estimation of intensity functions allows to understand the neuronal interaction structure. In a non-parametric frequentist framework, LASSO estimators have been proposed in the literature. In this work, we propose a Bayesian non-parametric estimation. We sample the posterior distribution through a Sequential Monte Carlo algorithm, well adapted to point processes.

• Lundi 11 janvier 2016 - - Salle de réunion 142, bâtiment 210
Jean-Benoist LEGER
(INRA, MaIAGE)
Modèle de graphes à espace latent continu de type SBM

De nombreuses données entre des éléments peuvent être présentés sous
forme de réseaux. Ces données peuvent être binaires, comme une
présence/absence de relation, quantifiées, continues, où être valuées
sur d'autres espaces. Pour construire un modèle probabiliste adapté à
ces données des hypothèses sont nécessaires. Des hypothèses
d'appartenance des nœuds à des classes latentes et une indépendance de
la loi sur les lien conditionnellement à la loi sur les nœuds conduit à
des modèles de type SBM (Stochastic Block Models). Il est possible de
relacher la contrainte sur l'espace latent à valeurs discrètes pour se
placer dans un espace latent à valeurs continues, ce qui conduit à des
modèles de type MMSBM. (Mixed Membership SBM).

Il est également possible de disposer d'information extérieures pouvant
être introduites sous forme de covariables.

Cette présentation introduira les modèles de graphes à classes latentes
de type SBM, avec ou sans covariables pour diverses lois de
probabilités sur les liens. Elle présentera l'extension à la classe
latente continue, et introduira une méthode d'estimation basée sur le
Variational-EM.

### 2015

• Lundi 15 décembre 2015 - - Salle de réunion 142, bâtiment 210
Edward IONIDES
(University of Michigan, Department of Statistics )
Inference for dynamic and latent variable models via iterated, perturbed Bayes maps

Iterated filtering algorithms are stochastic optimization procedures for latent variable models that recursively combine parameter perturbations with latent variable reconstruction. Previously, theoretical support for these algorithms has been based on the use of conditional moments of perturbed parameters to approximate derivatives of the log likelihood function. We introduce a new theoretical approach based on the convergence of an iterated Bayes map. A new algorithm supported by this theory displays substantial numerical improvement on the computational challenge of inferring parameters of a partially observed Markov process.

• Lundi 30 novembre 2015 - - Salle de réunion 142, bâtiment 210
Pierre Larmande
(IRD, South Green, Montpellier)
Enabling knowledge management in the Agronomic Domain

The drastic growth in data in the recent years, within the Agronomic sciences has brought the concept of knowledge management to the forefront. Some of the factors that contribute to this change include a) conducting high-throughput experiments have become affordable, the time spent in generating data through these experiments are minuscule when compared to its integration and analysis; b) publishing data over the web is fairly trivial and c) multiple databases exist for each type of data (i.e. ‘omics’ data) with a possible overlap or slight variation in its coverage [1, 2]. In most cases these sources remain autonomous and disconnected. Hence, efficiently managed data and the underlying knowledge in principle will make data analysis straightforward aiding in more efficient decision making. We are involved in developing methods to aid data integration and knowledge management within the domain of Agronomic sciences to improve information accessibility and interoperability. To this end, we address the challenge by pursuing several complementary research directions towards: distributed, heterogeneous data integration.

References:
Goble, C. and Stevens, R. (2008) State of the nation in data integration for bioinformatics. Journal of Biomedical Informatics, 41(5), 687-693.
Antezana, E., et al. (2009) Biological knowledge management: the emerging role of the Semantic Web technologies.Brief. in Bioinformatics,10(4), 392-407.

• Lundi 16 novembre 2015 - - Salle de réunion 142, bâtiment 210
Fabrice Rossi
(équipe SAMM, Université Paris 1 Panthéon-Sorbonne)
Analyse exploratoire de graphes dynamiques

Nous étudions dans ce travail des données d'interaction, constituées de triplets source, destination, instant. Ce type de données est assez fréquent dans les relations intermediées informatiquement, comme par exemple les emails (expéditeur, récepteur, horodatage de la connexion au serveur STMP), les appels téléphoniques, les SMS, etc. On peut les voir comme un graphe dynamique : les sources et destinations forment les sommets du graphe, alors que les arcs sont les ntraces des interactions. Une fonction de présence indique si un arc est actif à un instant donné.

Nous proposons une méthode d'analyse exploratoire de ce type de données par tri-classification : nous construisons des classes de sources, des classes de destinations et des intervalles de temps qui garantissent une forme de stationnarité locale des interactions à l'intersection de trois classes. La méthode proposée ne demande aucun paramètre utilisateur et donne des résultats très satisfaisants sur des données réelles volumineuses.

• Lundi 5 octobre 2015 - - Salle de réunion 142, bâtiment 210
Christopher Quince
(Warwick Medical School, University of Warwick)
Probabilistic Modelling of Microbial Community Structure

I will give an overview of methods that use generative probabilistic models to describe microbial community structure as determined through next generation sequencing. I will discuss the concept that the human gut microbiota is derived from a finite number of discrete types or enterotypes. I will show that Dirichlet-multinomial mixtures allow a more nuanced description of enterotypes as diffuse peaks in community configurations. I will then extend the idea of Dirichlet priors for community configurations to hierarchical Dirichlet processes which allow ‘unseen’ species to be modelled. I will use these both as a means for fitting the ecological model, Hubbell’s Unified Neutral Theory of Biodiversity, and for avoiding rarefaction in microbial community diversity estimation.

• Lundi 2 novembre 2015 - - Salle de réunion 142, bâtiment 210
Isabelle Bloch
(UMR 5141 LTCI, Telecom ParisTech - CNRS)
Modèles symboliques pour la reconnaissance de structures dans les images et l'interprétation de scènes
• Vendredi 2 octobre 2015 - - Salle de réunion 142, bâtiment 210
Philipp W. Messer
(Department of Biological Statistics and Computational Biology, Cornell University)
Understanding the rapid evolution of pesticide and drug resistance

We typically think of evolution as a slow and gradual process, driven by the accumulation of small changes over millions of years. While it is well known that evolution can be much faster when humans impose artificial selection, for instance during animal breeding, such rapid evolutionary responses are generally thought to rely on the availability of standing genetic variation. However, recent studies of the evolution of pesticide and drug resistance revealed that adaptation can be rapid despite requiring complex alleles that are not initially present in a population. Furthermore, it appears that rapid adaptation does not always follow the classic selective sweep model, but often produces so-called soft selective sweeps, where multiple adaptive alleles of independent mutational origin sweep through the population at the same time. In my talk, I will show how the emerging field of population genomics can help us uncover the mechanisms that underlie these rapid evolutionary responses and explain the frequent occurrence of soft selective sweeps. I will also discuss the challenges this poses for computational approaches aimed at identifying adaptive loci, as well as for our theoretical understanding of adaptive dynamics, and present new strategies for tackling these problems.

• Lundi 21 septembre 2015 - - Salle de réunion 142, bâtiment 210
Jean-Michel Marin
(UMR CNRS 5149, Institut de Mathématiques et Modélisation, Université de Montpellier)
Méthodes d’inférence de l’histoire démographique de populations structurées à partir de données de polymorphisme génétique

Un des principaux développements de la modélisation en génétique des populations est l’utilisation des méthodes dites coalescentes ou généalogiques. Le but est de reconstruire des éléments de l'histoire de populations. Pour examiner la structure des données génétiques, ces méthodes utilisent l'arbre généalogique des gènes. La formulation d’un modèle est contrainte par un scénario évolutif qui imite la réalité historique et démographique de l'espèce. Un tel scénario résume l’histoire évolutive des populations par une suite d'événements démographiques depuis une population ancestrale. Ces événements sont constitués de divergences, des migrations et des variations de tailles entre les populations. Les jeux de données que l’on considère sont constitués d'informations génétiques issues de plusieurs locus. Les modèles que nous étudions sont sous l'hypothèse de neutralité qui implique l'absence d'effet de sélection. Avec ces modèles, nous pouvons inférer de quelle sources ancestrale provient une population récente, décrire des voies d’invasion de populations... Il faut alors utiliser une procédure de choix de modèle, chaque hypothèse correspond à un scénario démographique. La plupart du temps, on ne sait pas calculer la vraisemblance de données de polymorphisme. Dans cet exposé, nous présenterons les défis statistiques véhiculés par ces modèles sans vraisemblance explicite. Puis, nous montrerons comment certaines méthodes bayésiennes approchées permettent d’y répondre.

• Lundi 7 septembre 2015 - - Salle de réunion 142, bâtiment 210
Wolfram Liebermeister
(Institut für Biochemie, Charité - Universitätsmedizin Berlin)
Enzyme economy in metabolic networks

It often assumed - sometimes tacitly - that cells use their enzyme resources economically. This hypothesis can be studied by analysing enzyme requirements in kinetic models. I discuss models in which enzyme levels must realize a given flux distribution. The search for cost-optimal enzyme and metabolite levels can be formulated as a convex optimization problem. The enzyme profiles are shaped by opposing tendencies: a need for sufficient saturation with substrate, and an avoidance of small thermodynamic forces. The resulting prediction of metabolite and enzyme levels can complement constraint-based approaches for flux prediction, such as Resource Balance Analysis.

• Lundi 29 juin 2015 - - Salle de réunion 142, bâtiment 210
Bertrand Cloez
(INRA-SupAgro, UMR 729 MISTEA, Montpellier)
Comportement en temps long de processus avec extinction

Dans cet exposé, nous nous intéresserons à un processus de Markov possédant un état absorbant comme par exemple le nombre d'individus ou la proportion de gènes dans une population. L'équilibre d'un tel processus est l'état absorbant (0 pour le nombre d'individu, 0 ou 100% pour la proportion de gènes). Il arrive, sous certaines conditions, que ce processus atteigne une sorte d'équilibre avant l'extinction. On parle d'équilibre quasi-stationnaire. Nous décrirons quelques propriétés de celle-ci et donnerons deux algorithmes pour la déterminer. Le premier est une méthode particulaire proche des algorithmes génétiques utilisés en filtrage non-linéaire. Le second est une marche aléatoire renforcée dont l'étude est basée sur les algorithmes stochastiques et la méthode de l'EDO.

• Lundi 15 juin 2015 - - Salle de réunion 142, bâtiment 210
Evelyne Lutton
(INRA - GMPA)
Modéliser, visualiser, optimiser.
Pour mieux comprendre et maîtriser les procédés agro-alimentaires, les modèles numériques deviennent un support de plus en plus utile. Cependant, la construction de ces modèle reste encore une étape ardue pour de nombreuses raisons, principalement à cause de la diversité des mécanismes en jeu (physiques, chimiques, biologiques), des relations non linéaires entre variables, du couplages inter-échelles des phénomènes, de la diversité des connaissances expertes ou empiriques, de l'incertitude des mesures et des connaissances, ainsi que du coût et de la rareté des données expérimentales. Dans un contexte aussi complexe, il devient nécessaire d'avoir recours à des méthodes algorithmiques robustes, et en particulier à des heuristiques d'optimisation stochastique, car les méthodes classiques trouvent leurs limites.
Cet exposé est focalisé sur une approche développée dans l'équipe Malices de l'UMR GMPA en collaboration avec l'équipe AVIZ de l'INRIA, pour comprendre, organiser et structurer des données multi-dimensionnelles. L'exploration visuelle interactive, en formalisant l'exploration comme une tâche d'optimisation interactive prise en charge par un algorithme évolutionnaire, permet de proposer à des experts différents points de vues sur leurs jeux de données. Cette approche est utile à la fois au sein des premières étapes de modélisation pour structurer les données brutes, mais aussi pour l'analyse du comportement de modèles.

• Lundi 1er juin 2015 - - Salle de réunion 142, bâtiment 210
Marion Leclerc
(INRA Micalis, Equipe PhylHom)
Annulé
• Lundi 18 mai 2015 - - Salle de réunion 142, bâtiment 210
Khashayar Pakdaman
(U. Paris Diderot - CNRS, UMR 7592 Institut Jacques Monod, Biologie computationnelle et biomathématiques)
Noise variability and synchronization

Motivated by experiemental studies on the influence of noise on neuronal behavior, this presentation will review our work on the impact of stochastic variability on neuronal dynamics and synchronization of neuronal assemblies.

• Lundi 13 avril 2015 - - Salle de réunion 142, bâtiment 210
Claire Rogel-Gaillard
(INRA-AgroParisTech, UMR 1313 Génétique Animale et Biologie Intégrative)
Sciences Animales Paris Saclay : pour qui, pourquoi, pour quoi faire?
• Lundi 30 mars 2015 - - Salle de réunion 142, bâtiment 210
Guillaume Achaz
(UPMC-CNRS UMR7138, IBPS ABI et Collège de France SMILE)
The strange case of the Standard Neutral Model of molecular evolution: when, what and why

We will investigate the model that is commonly assumed throughout population genetics and more generally molecular evolution, the so-called Standard Neutral Model. I will start by describing some of its motivations, its underlying assumptions, its forward and backward perspectives, its usage and more importantly its limit. I will then illustrate the different points by biological examples and will argue that the use of a unique reference model may obscure our ability to apprehend correctly the evolution of life.

• Lundi 16 mars 2015 - - Salle de réunion 142, bâtiment 210
Pierre Rivière (1) et Olivier David (2)
(Réseau Semences Paysannes (1) et INRA UR1404 MaIAGE (2))
Dispositifs expérimentaux pour la sélection décentralisée et participative sur le blé tendre

Dans notre programme de sélection participative sur lé blé tendre, la sélection est décentralisée dans les environnements cibles and repose sur une collaboration étroite entre paysans, associations et équipes de recherche. Dans notre projet, chaque paysan conduit ses propres essais dans sa ferme et choisit les variétés qu'il souhaite semer. Cela génère des dispositifs expérimentaux très déséquilibrés avec peu de degrés de liberté à la résiduelle dans chaque ferme et environ 95% de combinaisons variété x environnement manquante dans le réseau d'essais. Afin d'analyser ces données, nous avons développé deux modèles hiérarchiques bayésiens afin de (1) réaliser des comparaisons de moyennes dans chaque ferme et (2) étudier les interactions variétés x environnements dans le réseau d'essais. Les deux modèles apportent des résultats satisfaisants tant que le nombre de fermes est important dans le réseau et que chaque ferme a au moins une variété témoin répétée.

• Lundi 2 mars 2015 - - Salle de réunion 142, bâtiment 210
Viet Chi Tran
(CNRS - Université Lille 1, UMR 8524 Laboratoire Paul Painlevé)
Un modèle de propagation d'épidémie sur un graphe de configuration

On considère un modèle SIR, pour une maladie se propageant dans une population caractérisée par une stucture sociale décrite par un graphe de configuration (Bollobas et Molloy-Reed). L'évolution de l'épidémie peut-être résumée par 3 équations à valeurs mesures, d'où l'on retrouve la description en 5 EDO proposée par Volz (2008). Nous expliquerons ensuite comment estimer les paramètres par ABC et comment faire une analyse de sensibilité.

• Lundi 16 février 2015 - - Salle de réunion 142, bâtiment 210
Sarah Lemler
(UEVE - CNRS, UMR 8071 LAMME)
Estimation pour les processus de comptage avec beaucoup de covariables

Nous cherchons à estimer l’intensité de sauts d’un processus de comptage en présence d’un grand nombre de covariables. Nous proposons deux approches. D’abord, nous considérons une intensité
non-paramétrique et nous l’estimons par le meilleur modèle de Cox étant donné deux dictionnaires de fonctions. Le premier dictionnaire est utilisé pour construire une approximation du logarithme
du risque de base et le second pour approximer le risque relatif. Nous considérons une procédure Lasso, spécifique à la grande dimension, pour estimer simultanément les deux paramètres incon-
nus du meilleur modèle de Cox approximant l’intensité. Nous prouvons des inégalités oracles non- asymptotiques pour l’estimateur Lasso obtenu.
Dans une seconde partie, nous supposons que l’intensité satisfait un modèle de Cox. Nous proposons deux procédures en deux étapes pour estimer les paramètres inconnus du modèle de Cox. La première étape est commune aux deux procédures, il s’agit d’estimer le paramètre de régression en grande dimension via une procédure Lasso. Le risque de base est ensuite estimé soit par sélection de modèles, soit par un estimateur à noyau avec une fenêtre choisie par la méthode de Goldenshluger et Lepski. Nous établissons des inégalités oracles non-asymptotiques pour les deux estimateurs du risque de base ainsi obtenus. Nous menons une étude comparative de ces estimateurs sur des données simulées, et enfin, nous appliquons les procédures implémentées à une base de données sur le cancer du sein.

• Lundi 2 février 2015 - - Salle de réunion 142, bâtiment 210
Charlotte Baey
(Ecole Centrale Paris, laboratoire MAS)
Modélisation de la variabilité inter-individuelle dans les modèles de croissance de plantes

Il existe une forte variabilité génétique entre plantes, même au sein de la même variété, ce qui, combinée à la variation locale des conditions climatiques dans le champ, peut conduire deux plantes voisines à se développer de façon très différente. C’est l’une des raisons pour lesquelles les approches populationnelles dans les modèles de croissance de plantes suscitent un grand intérêt. Nous proposons dans cette étude une extension du modèle individu-centré Greenlab à l’échelle de la population dans le cas du colza, à l’aide d’un modèle non linéaire mixte. Deux variants stochastiques de l’algorithme EM (Espérance-Maximisation), le Monte-Carlo EM automatique (MCEM) et le SAEM seront comparés, en utilisant le fait que le modèle complet appartient à la famille exponentielle.

• Lundi 19 janvier 2015 - - Salle de réunion 142, bâtiment 210
Bogdan Mirauta
(Biologie Computationnelle et Quantitative, UMR 7238 CNRS-UPMC; MaIAGE INRA)
Transcriptome Analysis from High-Throughput Sequencing Count Data

The most common RNA-Seq strategy consists of random shearing, amplification, and high-throughput sequencing, of the RNA fraction. Methods to analyze transcription level variations along the genome from the read count profiles generated by the is global RNA-Seq protocol are needed. We developed statistical approaches to estimate the local transcription levels and to identify transcript borders. The transcriptional landscape reconstruction relies on a state-space model to describe transcription level variations in terms of abrupt shifts and more progressive drifts. A new emission model is introduced to capture not only the read count variance inside a transcript but also its short-range autocorrelation and the fraction of positions with zero-counts. The estimation relies on a Sequential Monte Carlo algorithm, the Particle Gibbs.

• Mardi 6 janvier 2015 - - Salle de réunion 142, bâtiment 210
Rosemary Bailey
(Queen Mary University of London, School of Mathematical Sciences)
Designs for variety trials with very low replication

In the early stages of testing new varieties, it is common that there are only small quantities of seed of many new varieties. In the UK (and some other countries with centuries of agriculture on the same land) variation within a field can be well represented by a division into blocks. Even when that is not the case, subsequent phases (such as testing for milling quality, or evaluation in a laboratory) have natural blocks, such as days or runs of a machine. I will discuss how to arrange the varieties in a block design when the average replication is less than two.

### 2014

• Lundi 24 novembre 2014 - - Salle de réunion 142, bâtiment 210
Maud Delattre
(AgroParisTech-INRA, UMR 518 MIA)
►Titre et résumé à venir
• Lundi 13 octobre 2014 - - Salle de réunion 142, bâtiment 210
Simon Labarthe
(INRA, MiaJ)
► Equations de réaction diffusion en modélisation cardiaque et en dynamique de population.

Après une brève présentation de modèles de dynamique de populations soumises au réchauffement climatique, j'aborderai de manière plus approfondie des questions de modélisation en cardiologie. J'illustrerai les méthodes et les interactions avec biologistes et cliniciens que j'ai pu mettre en œuvre précédemment pour la modélisation des oreillettes et des veines pulmonaires. Les tissus auriculaires sont très fins : les modèles auriculaires surfaciques usuels tirent avantage de cette caractéristique.
Cependant, des études cliniques ont montré que des événements électriques ont lieu dans l'épaisseur du tissu lors d'activité pathologique, ce que ne peuvent prendre en compte les modèles surfaciques. Je présenterai un modèle bisurfacique, de sa dérivation théorique par analyse asymptotique à son implémentation et à son utilisation pratique pour aborder des problématiques cliniques. Ces aspects applicatifs serviront à illustrer des aspects méthodologiques, plus susceptibles d'entrer en résonance avec les problématiques de recherche de l'unité.

• Lundi 29 septembre 2014 - - Salle de réunion 142, bâtiment 210
Véronique Cariou
(ONIRIS, Nantes)
► Traitement de données métabolomiques dans un contexte 3-voies. Présentation de différentes approches en exploratoire versus en discrimination

Dans le contexte de la chimiométrie, l’analyse des données métabolomiques constitue un champ d’application en plein essor. La métabolomique génère en effet de grands volumes de données pour lesquelles les techniques statistiques doivent être adaptées (volumétrie, multi-colinéarité, nombre d’individus très inférieur au nombre de variables, …). Dans cet exposé, nous nous intéresserons à une structure particulière de données métabolomiques : celle des données trois voies. Ce type de données peut être directement issu des technologies employées (par exemple en chromatographie couplée à la spectrométrie de masse). La prise en compte d’une dimension temporelle (des prélèvements successifs pour un même individu) engendre également des données trois-voies, appelées aussi ternaires, tensorielles ou encore à trois entrées. Nous présenterons tout d’abord ce type de données ainsi que les structures associées.
En combinant une synthèse de travaux méthodologiques et des applications sur des jeux de données métabolomiques, nous développerons ensuite différentes méthodes de traitement des données trois-voies. Nous nous placerons d’abord dans un contexte non supervisé en montrant comment ces techniques généralisent l’analyse en composantes principales au cas des données trois-voies. Nous présenterons principalement deux modèles : Parafac et Tucker en détaillant à la fois les critères et les algorithmes. Dans un second temps, nous nous intéresserons au cadre de la discrimination. Cette problématique est relativement récente dans le cas de données trois voies. Parmi les travaux, nous détaillerons la NPLS proposée par R. Bro. Certaines limites de la NPLS dans le contexte des données métabolomiques seront dégagées. Nous proposerons finalement une alternative relativement simple à la NPLS, cette alternative reposant sur une approche exploratoire.

• Vendredi 19 septembre 2014 - - Amphithéâtre Jacques Poly, bâtiment 440
Plusieurs intervenants
► "Bucoliques, les Mathématiques ?"

Séminaire autour de l'apport des mathématiques en Agriculture, Alimentation et Environnement, à l'occasion du départ en retraite de Jean-Baptiste Denis.
Pour plus de détail voir la page dédiée